本文主要开展行业拆分与聚类实证,为后续系列报告确立统一的研究对象
本文作为系列研究首篇,主要目的是为后续系列报告确立统一的研究对象,核心工作是开展行业拆分和聚类实证:1、我们以中信一级行业为基础,分析了每个行业内个股收益和基本面的分化度,并综合考虑各行业的生命周期发展阶段,以及市值占比因素后,决定将食品饮料拆分成酒类、饮料、食品三个子行业;将非银行金融拆分成证券、保险、多元金融三个子行业;2、基于拆分后的行业划分体系,采用蒙特卡洛模拟和最大生成树算法构建行业间关联网络,最终将所有行业聚类成周期、消费、金融、成长、稳定五大风格,以及上游资源、中游材料、中游制造等八大主题板块。
行业拆分标准:综合考虑个股分化度以及生命周期阶段、市值占比等因素
行业拆分结果:食品饮料和非银行金融内部分化度较大,需要拆分
行业聚类方法:结合蒙特卡洛模拟和最大生成树算法构建行业关联网络
基于自上而下的研究视角,投资者通常会从经济结构、产业链出发将各个细分行业进行归并,便于研究宏观环境对大类板块的影响,以及产业链上下游之间的传导规律。鉴于此,我们结合蒙特卡洛模拟和最大生成树算法构建行业关联网络,进行聚类研究:1、对所有行业的历史收益率序列进行K-means聚类,对于任意两个行业,如果他们被归为一类,则记录为1,否则记为0;2、重复执行多次,计算每两个行业被归为一类的概率,概率越高,说明行业间相似度越高;3、基于最大生成树算法剪枝,把距离较远的边去掉,生成全连接的行业关联网络,也即产业链全景图谱。
行业聚类结果:五大风格、八大主题板块
基于行业关联网络可将所有行业聚类成五大风格、八大板块:1、周期风格,下辖上游资源(石油石化、煤炭、有色金属),中游材料(钢铁、基础化工、建材),中游制造(机械、电力设备及新能源、国防军工)三大板块;2、消费风格,下辖可选消费(汽车、家电、酒类),必须消费(食品、饮料、医药、纺织服装、农林牧渔、商贸零售、轻工制造、消费者服务)两大板块;3、金融风格,下辖大金融板块(银行、证券、保险、多元金融、综合金融、房地产);4、成长风格,下辖TMT板块(计算机、电子、传媒、通信);5、稳定风格,下辖公共产业板块(交通运输、电力公用事业、建筑)。
风险提示:模型根据历史规律总结,历史规律可能失效。长期来看,行业拆分与聚类结果反映了国民经济体系中的产业链全景图谱,随着经济结构转型升级,未来有变动可能。
本文研究导读
基本面轮动系列报告主要聚焦于中观层面行业轮动研究,本文作为系列研究开篇报告,主要目的是确立研究对象,核心工作是开展行业拆分与聚类实证。
另一方面,基于自上而下的研究视角,投资者通常会从经济结构、产业链出发将各个细分行业进行归并,便于研究宏观环境对大类板块的影响,以及产业链上下游之间的传导规律。鉴于此,我们还需要对拆分后的行业划分体系进行聚类研究。
综上,全文内容主要分为两大块,第一部分聚焦于行业拆分研究,主要解答如下问题:
1.如何评估行业内个股基本面和个股走势的分化度,进而确定该行业是否需要拆分;
2.如何在保持灵活性和可跟踪性的基础上,对分化度大的行业进行拆分;
3.如何定量评估拆分后的行业划分体系和原方案孰优孰劣;
第二部分聚焦于行业聚类研究,我们结合蒙特卡洛模拟和最大生成树算法构建了稳健的聚类方案,最终将拆分后的行业体系聚类成了周期、消费、金融、成长、稳定五大风格,以及上游资源、中游材料、中游制造、可选消费、必须消费、大金融、TMT、公共产业八大主题板块。
行业拆分实证
本节内容将以中信一级行业作为研究对象,从价格和基本面两个角度刻画行业内个股的分化度,在兼顾灵活度和可跟踪性的前提下,对分化度大的行业进行适当拆分,而拆分的核心目的是期望各行业内部股票价格和基本面走势尽可能趋同,行业划分更加纯粹。
个股收益分化度刻画
本文采用如下三种方式刻画行业内的个股收益分化度
1.多空累计收益:将行业内可投资个股(剔除ST股、停牌股等)按当日收益率从高到低排序分为5层,第1层为多头组合,第5层为空头组合,层内取个股收益率中位数作为组合收益率,计算日内多空收益,并汇总考察区间内的多空累计收益,多空累计收益越高,说明行业内股票价格走势的分化越大。
2.回归拟合优度:建立个股收益率对行业指数收益率的线性回归模型,计算行业内个股拟合优度R^2均值,R^2均值越大,说明个股走势和行业指数走势越一致,分化度越小。为了保证统计口径上的一致性,以1-R^2均值作为分化度,也即值越大,分化度越大。
在实证过程中,为了避免统计结果受到特定考察区间的影响,针对每个指标,我们都进行了1000次模拟。每次模拟都会随机设置起止日期(为了避免短期噪音影响,每次考察区间的长度都超过750天),然后根据分化度指标计算结果在行业间进行排序。进一步,对1000次排序结果取平均,得到最终的行业分化度排序。
各行业内个股收益的分化可以从主题基金的分布中得到印证。我们按照Wind开放式基金分类,统计了不同类别下消费、医药、TMT、周期、金融地产五类主题基金的个数,其中,主题划分主要根据基金名称中的关键字匹配确定,具体而言:
1.消费类关键词:消费、食品、白酒、饮料。
2.医药类关键词:医药、医疗、健康、卫生。
3.TMT类关键词:TMT、电子、传媒、计算机、通信、互联网、信息、大数据。
4.周期类关键词:周期、资源、原材料、钢铁、煤炭、有色、石油、化工、建材。
5.金融地产类关键词:金融、地产、银行、非银、证券、保险。
统计结果显示,主题类基金在所有基金中的占比偏低,绝大多数基金仍然以沪深300等宽基指数作为业绩比较基准,选股范围并非限定在某一特定的行业板块。但主题基金数量结构上的分化仍然反映出一些有意思的结论:
1.在普通股票型、增强指数型、偏股混合型等偏向于主动管理的基金中,消费、医药、TMT类基金的数量要显著多于周期和金融地产类,这一方面是因为前三者符合经济结构转型的需要,更加受到投资者青睐;另一方面是因为这些行业内部个股收益分化度较大,可以充分发挥基金经理的alpha获取能力。
2.在被动指数型基金中,周期和金融地产类主题基金的数量大幅提升,这两类行业内个股收益趋同度较高,通过主动管理获取alpha较为困难,所以主要作为beta收益获取渠道(被动指数型基金具有成本优势)。
综上,主题类基金的数量分布和前文收益分化度的统计结果是可以相互印证的,这也为FOF投资带来一个具有实操价值的结论:对于消费、医药、TMT类收益分化度比较大的行业,应该侧重于基金优选来获取更高的相对收益,适合长期持有;对于周期、金融地产类收益趋同度较高的行业,应该侧重于大势研判获取绝对收益,适合波段操作。
基本面分化度刻画
本文主要从财务指标维度衡量个股的基本面分化:
2.盈利维度,包含净资产收益率ROE、总资产收益率ROA、资本回报率ROIC、净利率、毛利率。同一行业内不同公司的景气驱动因素类似,理论上应该是一荣俱荣、一损俱损,分化过大意味着盈利结构差别较大。
3.营运维度,包含资产负债率、总资产周转率、存货周转率,主要考察同一行业内不同公司的资本结构、偿债能力等营运状况的差异。
上述指标计算过程中,为了剔除季节性影响,凡是流量类数据(也即利润表、现金流量表中的数据)均采用TTM方式构建。此外,资本回报率(ROIC)定义如下:
ROIC=息前税后利润/期初期末全部投入资本均值
该指标通常可用于直观评估某公司的价值创造能力,其中息前税后利润为:
息前税后利润=息税前利润-税收
全部投入资本按如下方式计算:
全部投入资本=股东权益+短期借款+应付票据+应付利息+一年内到期的非流动负债+长期借款+应付债券
在实证过程中,针对每个指标,进行如下处理:
1.蒙特卡洛模拟生成随机考察区间,为了避免结论受到短期噪声冲击的影响,考察区间的长度至少为3年,也即12个季度。
2.针对考察区间内每个财报季,计算个股的财务指标,统计行业内成分股的方差来刻画行业分化度,这里为了剔除极端值的影响,只保留成分股中财务指标值处于[5%,95%]分位数之间的样本。
3.对考察区间内每个截面的方差求中位数,作为该行业在考察区间内的分化度衡量,不同行业间按照分化度从大到小排序。
4.以上步骤重复1000次,取1000次排序结果的平均值作为最终的行业分化度排序。
实证结果表明,不同基本面指标给出的分化度结果排序并不一致:
1.PB维度分化度最大的三个行业是医药、有色金属、传媒;
2.PE维度分化度最大的三个行业是国防军工、有色金属、农林牧渔;
3.ROA维度分化度最大的三个行业是食品饮料、医药、基础化工;
4.ROE维度分化度最大的三个行业是食品饮料、钢铁、房地产;
5.ROIC维度分化度最大的三个行业是非银行金融、食品饮料、医药;
6.净利率维度分化度最大的三个行业是非银行金融、交通运输、房地产;
7.毛利率维度分化度最大的三个行业是医药、交通运输、食品饮料;
8.资产负债率维度分化度最大的三个行业是石油石化、基础化工、有色金属;
9.总资产周转率维度分化度最大的三个行业是石油石化、商贸零售、有色金属;
10.存货周转率维度分化度最大的三个行业是交通运输、传媒、消费者服务;
如果以至少三项指标排名前三作为高分化度标准,那么基本面分化度最为显著的行业包括有色金属、食品饮料、医药、交通运输。对于非银行金融行业,由于其财务数据中一般没有营业成本项,所以无法计算毛利率和存货周转率指标,而剩余八项指标中,ROIC和净利率分化度均排名第一,因此将非银行金融行业也列入基本面分化度较高的行业中。
整体来看,在收益分化度中比较突出的成长类行业(计算机、电子、传媒、通信),其基本面分化度并不突出(除了传媒行业在个别指标上分化度较高);与之对应的,在收益分化度中并不突出的医药行业,基本面分化度却非常明显(PB、ROA、ROIC、毛利四项指标中分化度均排名前三);而食品饮料行业则是在收益分化度和基本面分化度中均排名靠前,是重点考察对象。
行业拆分方案
总结前文,我们从收益和基本面出发,对各行业内个股的分化情况进行了定量梳理。从收益分化角度,初步筛选计算机、通信、电子、食品饮料、家电、建筑、轻工制造作为研究对象;从基本面分化角度,初步筛选有色金属、食品饮料、医药、非银行金融、交通运输、传媒作为研究对象。本节内容主要讨论如何在保持灵活性和可跟踪性的基础上,对部分行业进行拆分。拆分的核心目的是期望新的行业划分体系具有“高内聚、低耦合”的特征,也即行业之间的分化度应该尽可能大,而行业内的分化度应该尽可能小。
2.充分考虑行业间的市值均衡:从量化研究来看,行业划分体系是市场中性策略中控制偏离的标准,因此各行业之间的市值不应差距过大;从投资实务的角度,如果拆分后的行业总市值过低、股票数目过少、流动性不足,也没有跟踪的必要。
3.充分考虑子行业间的分化程度:一般而言,行业内个股高分化是子行业高分化的必要条件,但非充分条件。因此,为了保证拆分结果的“高内聚、低耦合”特性,还需要检查子行业间的分化程度。
按照前述标准,初筛行业中,建筑、轻工制造、家电三个行业内子行业间的市值分布极不均匀,基本上呈现出一家独大的格局,因此本文不予拆分。而电子、通信、计算机、传媒四个行业均属于典型的成长风格,目前还处于高速增长期,内部竞争格局尚未稳定,个股间收益和基本面的分化呈现出短期性、暂时性、阶段性的特点,在经济结构转型和产业升级的大背景下,未来不确定性较大,为了保证划分体系的灵活性,本文暂不予拆分。综上,后文中我们主要考察有色金属、医药、食品饮料、非银行金融、交通运输五个行业。
医药:子行业间收益趋同性高,不予拆分
交通运输:拆分能提升“高内聚”,但会破坏“低耦合”,综合考虑后不予拆分
交通运输行业下辖公路铁路、物流、航运港口、航空机场4个子行业:1、从走势来看,四个子行业间物流行业弹性较大,其他三个子行业的趋同度较高;2、从基本面来看,物流行业受益于近年来电子商务的发展,未来前景可期,兼具成长属性,估值溢价更高;航运港口、航空机场子行业的业绩波动较大,受经济周期的影响更显著;公路铁路子行业的业绩稳定性较高,是典型的防御型行业。整体而言,交通运输子行业间的基本面分化较为明显,而收益分化度适中。拆分的好处是能够提升“高内聚”,也即各子行业内部的核心驱动因素更为纯粹,坏处是破坏了“低耦合”,因为拆分后新得到的航运港口和航空机场行业之间,收益和基本面的分化度都偏低。权衡利弊后,本文暂不拆分交通运输行业。
有色金属:拆分能提升“高内聚”,但会破坏“低耦合”,综合考虑后不予拆分
食品饮料:价格和基本面走势均分化较大,需要拆分
非银行金融:价格和基本面走势均分化较大,需要拆分
行业拆分方案评估
总结前文,我们在综合考虑个股分化和子行业分化后,决定将食品饮料拆分成酒类、饮料、食品三个子行业,将非银行金融拆分成证券、保险、多元金融三个子行业。本节将通过定量手段,证明新的行业划分体系相比于原一级行业划分体系更加纯粹,“高内聚、低耦合”特性更加显著,也即行业间的分化更大,而行业内的分化更小。
个股收益同质性检验
基本面同质性检验
对于特定行业划分方案,其行业内个股的基本面同质性可以通过财务指标的联合方差表征,因此不同行业划分体系的优劣可以通过联合方差检验进行判定。
在实证中,记新的行业拆分体系为a(剔除综合后一共有33个行业),原一级行业划分体系记为b(剔除综合后一共有29个行业),分别利用2010年至2018年的年报数据计算联合方差统计量。结果表明,拆分后的行业体系相比于原一级行业体系基本面同质性更高,接近70%的场景下F检验统计量都小于1,尤其是在ROIC、毛利率等盈利指标下,拆分后的行业划分体系中,个股基本面趋同度更显著。
行业聚类实证
基于自上而下的研究视角,投资者通常会从经济结构、产业链出发将各个细分行业进行归并,便于研究宏观环境对大类板块的影响,以及产业链上下游之间的传导规律。鉴于此,我们还需要对拆分后的行业划分体系进行聚类研究。
聚类分析方法
聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使得归于同一类的数据之间相似性尽可能大,而归于不同类别的数据之间差异性尽可能大。K-means算法作为一种经典的基于距离的聚类方法,逻辑清晰,计算效率高,在实证中得到广泛应用,其基本步骤为:
1.根据先验知识事先确定需要聚类的簇的个数k;
2.在样本中随机选取k个对象,每个对象初始地代表了一个簇的中心;
3.对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;
4.计算每个簇的平均值,作为新的簇中心;
5.判定:若簇中心不再发生变动或达到迭代次数,结束,否则返回第2步,不断重复。
可见,K-means算法的核心思想是采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。然而实证过程中我们发现,该算法的聚类结果对先验设定的簇个数k,以及随机选取的初始点非常敏感。换言之,对于不同的值,同样的两个行业是否归为同一类结论可能不同;即便是固定值,以及输入数据,结论也会因为初始值的随机性而不固定,尤其是在样本较大的时候,算法容易陷入局部最优解。
为了解决k值敏感性,需要结合先验知识进行合理设定,中信行业划分体系在三级行业的基础上构建了周期、金融、消费、成长、稳定五大风格板块,因而本文实证中统一设置簇个数为5;为了解决单次运行中的初值敏感问题,我们采用了多次模拟求概率的方法,具体而言,针对目标区间的行业收益率序列,执行如下步骤:
1.基于收益率序列之间的欧式距离刻画行业的远近程度,并进行K-means聚类,对于任意两个行业,如果他们被归为一类,则记录为1,否则记为0;由于拆分后一共存在33个行业(剔除综合),所以一共有1089个行业配对关系;
2.上述流程重复执行1000次,计算每两个行业被归为一类的次数占比,占比越高,说明这两个行业的相似性越强。
得到每两个行业被归为一类的概率占比之后,可以通过最大生成树算法构建最终的行业关联关系,并梳理出聚类结果。简单来说,假设一共有N个节点,最大生成树就是找到N-1条边将所有节点连接起来,并且使得这N-1条边的权值之和达到最大,具体而言,我们可以通过每两个行业之间被归为一类的概率统计结果构建无向图G=(V,E),其中,V代表所有的节点集合(本例中就是各个行业),E代表了所有的连接边集合,每条边的权重就是其所连接的两个行业被归为一类的概率。若存在一个无回路的子集T,T是E的子集,它连接了所有的节点,并且使得
达到最大,则称T为G的最大生成树。在实现过程中一般采用Kruskal算法,原理如下:
1.将所有的边按照权重大小(本例中就是两个节点被归为一类的概率)递减排序;
2.选择最大权重的边,判断是否在当前的生成树中形成了一个环路,如果环路没有形成,则将该边加入最大生成树中,否则放弃;
3.重复步骤2,直到有V-1条边在最大生成树中。
聚类分析结果
首先考察基于最大权值边构建的简单网络,也即针对每个行业,只保留它与外界连接的边中权值最大的那一条。结果表明,所有行业被拆分成相对独立的多个类别,比如以银行、证券、保险为核心的金融风格;以计算机、传媒、电子、通信为核心的成长风格;以家电、汽车为核心的可选消费品风格;以医药、纺织服装为核心的必须消费品风格;以有色、煤炭、钢铁、石油石化为核心的强周期风格。整体来看,各类别的划分结果与定性认知基本一致,说明基本的产业经济逻辑是深深的融入到金融市场的运行过程之中的。
进一步,考察基于最大生成树构建的全连接行业关联网络,图中节点与节点间的距离反映了行业之间的相似程度,结果表明:
1.关联网络图左半部分更贴近下游消费端,以基础化工、纺织服装为核心的轻工产业链串联起医药、食品、饮料、农林牧渔等必须消费品行业,而以计算机、电子、通信、传媒为核心的成长板块则通过电力设备及新能源行业与必须消费品链条衔接起来。
2.关联网络图右半部分更贴近上游生产端,以有色、煤炭、钢铁、石油石化为核心的资源类强周期行业,和以银行、保险、证券、房地产为代表的金融类板块通过交通运输行业衔接起来,而交通运输、电力及公用事业都是典型的基础设施类行业,现金流相对稳定,属于弱周期风格。
3.左半部分的下游消费端行业集群,和右半部分的上游生产端行业集群,通过机械、汽车、国防军工等中游制造业行业联系起来,构建出完整的产业链图谱。
4.从节点距离来看,以计算机、电子、通信、传媒为代表的成长类行业,和以银行、证券、保险为代表的金融类行业,相互间距离最远,分化最大;而以有色金属、钢铁、煤炭、石油石化为代表的上游资源类行业,和以食品、饮料、纺织服装为代表的必须消费类行业距离最远,分化最大。
综上,我们按照先验设定的周期、消费、金融、成长、稳定五大风格,得到如下聚类结果:
1.周期风格,下辖上游资源、中游材料、中游制造三个主题板块。其中,上游资源包含石油石化、煤炭、有色金属三个行业;中游材料包含钢铁、建材、基础化工三个行业;中游制造包含机械、电力设备及新能源、国防军工三个行业;
2.消费风格,下辖可选消费和必须消费两个主题板块,其中,可选消费包含汽车、家电、酒类三个行业,它们都具备一定的周期属性,对消费需求变动的弹性较大;必须消费包含食品、饮料、纺织服装、医药、农林牧渔、消费者服务、商贸零售、轻工制造八个行业。整体而言,必须消费偏衣食类需求,而可选消费偏住行类需求;
3.金融风格,下辖大金融主题板块,包含银行、证券、保险、多元金融、综合金融、房地产六个行业;
4.成长风格,下辖TMT主题板块,包含计算机、电子、传媒、通信四个行业;
5.稳定风格,下辖公共产业主题板块,包含电力及公用事业、交通运输、建筑三个行业。
总结
本文作为基本面轮动系列报告第一篇,主要目的是为后续系列报告确立统一的研究对象,核心工作是开展行业拆分与聚类实证。
一个理想的行业划分体系应该具备“高内聚,低耦合”的特征,也即行业间的分化度应尽可能大,而行业内的分化度应尽可能小。基于此原则,我们以中信一级行业为基础,分析了每个行业内个股收益和基本面的分化度,并综合考虑各个行业的生命周期发展阶段,以及市值占比因素后,最终决定将食品饮料拆分成酒类、饮料、食品三个子行业;将非银行金融拆分成证券、保险、多元金融三个子行业;剔除掉综合行业后,拆分后的行业划分体系一共包含33个细分行业,分别是:石油石化、煤炭、有色金属、钢铁、基础化工、建材、机械、电力设备及新能源、国防军工、汽车、家电、酒类、食品、饮料、医药、纺织服装、农林牧渔、商贸零售、轻工制造、消费者服务、银行、证券、保险、多元金融、综合金融、房地产、计算机、电子、传媒、通信、交通运输、电力及公用事业、建筑。
进一步,基于拆分后的行业划分体系,我们采用蒙特卡洛模拟和最大生成树算法构建行业间关联网络,进行聚类研究。结果表明,33个细分行业可以聚类成周期、消费、金融、成长、稳定五大风格,以及上游资源、中游材料、中游制造、可选消费、必须消费、大金融、TMT、公共产业八大主题板块。整体而言,聚类结果与基于市场经验的定性认知基本一致,充分说明基本的产业经济逻辑是深深的融入到金融市场的运行过程之中的。
风险提示
模型根据历史规律总结,历史规律可能失效。长期来看,行业拆分与聚类结果反映了国民经济体系中的产业链全景图谱,随着经济结构转型升级,未来有变动可能。
免责申明
本公众号研究报告有关内容摘编自已经发布的研究报告的,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。如需了解详细内容,请具体参见华泰证券所发布的完整版报告。
本公众号内容基于作者认为可靠的、已公开的信息编制,但作者对该等信息的准确性及完整性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。
在任何情况下,本公众号中的信息或所表述的意见均不构成对客户私人投资建议。订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。普通投资者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。