摘要
行业景气度的量化研究一方面是对基本面逻辑框架的验证,帮助投资者找到对行业景气影响较大的经济变量;另一方面,对于股票二级市场投资者来说,行业景气度的观点往往也是中长期配置的一个重要参考依据。本篇报告将尝试基于行业基本面逻辑框架,利用行业经济数据构造景气度模型,以实现对行业景气度的跟踪和预判。
结合行业逻辑与相关性分析的景气度打分模型vs基于机器学习算法的景气度模型
以实现行业盈利预测为研究目标。景气度主要反映行业的基本面变化,通常情况下,景气度向好时,行业整体利润应有所提升;而景气度走弱时,行业整体利润也应出现下滑(或者增速下滑)。基于这样的理解, 理论上,我们可取行业的利润增速作为行业景气度的代理变量。其中,毛利润增速具有极值现象较少的特点,且与净利润增速、营业收入增速相关性均较高,可作为周期性行业景气度的代理变量。
景气度预测指标筛选原则:基本面逻辑长期稳定,有利于模型外推;历史数据充足,可以进行有效的量化检验;数据更新频率较高,至少月度频率,具有较高的及时性。
结合行业逻辑与相关性分析的景气度打分模型有效性较高。我们尝试构建了石油石化、煤炭、有色金属、电力及公用事业、钢铁、基础化工、建材、汽车、交通运输、电子行业的景气度模型,均对相应行业的毛利润增速有较好的预测性,但由于景气度模型只考量了行业基本面的变化,并非所有行业的景气度模型都能对行业超额收益具有较好的预测性,仅石油石化、煤炭、有色金属、钢铁、建材、汽车行业景气度模型对于行业超额收益的预测能力较强。
机器学习算法可以捕捉到符合行业逻辑认知、与盈利相关性较弱的经济指标。如电力及公用事业的用电量指标、石油石化行业的欧佩克原油产量指标,体现了非线性模型在景气度研究方面的价值。但是,半数以上行业的XGboost景气度模型对于行业超额收益缺乏前瞻性,可能是由于完全依赖于过去的统计结果对经济指标进行配权,易出现过拟现象;也可能部分对行业景气影响较大的关键变量没有加入到模型中,这方面需要通过更深入、精确的行业分析框架进行弥补。
2020年6月观点:周期性行业景气度整体向好
景气度高的行业包括:石油石化、煤炭、钢铁、建材、汽车、交通运输、电子。我们结合行业逻辑与相关性分析分别对周期性行业构建了景气度打分模型,基于截止2021年5月31日的经济数据,模型判断处于高景气状态的行业包括石油石化、煤炭、钢铁、建材、汽车、交通运输、电子;模型判断景气状态一般的行业为有色金属;模型判断景气状态较差的行业为电力及公用事业。基于前文所述,映射到行业超额收益层面,可能仍有相对表现的行业包括:石油石化、煤炭、钢铁、建材、汽车。
正文
行业景气度研究:以实现对行业盈利预测为目标
景气度研究关注行业的基本面信息
行业指数的涨跌是多方面因素影响下的结果,包括基本面因素、交易层面因素、金融市场流动性因素。其中,行业基本面的景气变化方向是景气度研究的着力点,本篇报告将尝试基于行业基本面逻辑框架,利用行业经济数据构造景气度模型,以实现对行业景气度的跟踪和预判。
研究意义:一方面,行业景气的量化研究是对基本面逻辑框架的验证,可以帮助投资者找到对行业景气影响较大的经济变量;另一方面,对于股票二级市场投资者来说,行业景气的变化虽然不能完全决定行业指数短期的涨跌,但是对于行业指数中长期的收益存在较大的影响。因此,投资者可将行业景气度的研究成果作为中长期配置的一个重要参考依据,尤其在金融市场流动性相对稳定、投资者情绪无显著变化的情况下,行业景气变化的影响力将更为显著。
图表: 行业指数收益的影响因素
资料来源:中金公司研究部
周期性行业可取盈利变化率作为景气度的代理变量
如前文所述,景气度主要反映行业的基本面变化,通常情况下,景气度向好时,行业整体利润应有所提升;而景气度走弱时,行业整体利润也应出现下滑(或者增速下滑)。基于这样的理解, 理论上,我们可取行业的利润增速作为行业景气度的代理变量。
利润增速存在周期性变化的行业更加适合取利润增速作为景气度的代理变量。如下图所示,部分行业利润增速(TTM环比增速)在时间维度上长期稳定,如医药行业,难以表现出行业景气/不景气状态的切换。若按增速大于0为行业景气度较高理解,则这些行业长期保持高景气状态,也就无法依据历史数据检验经济指标对行业景气的预判效果。而利润增速历史上呈现明显的周期性变化的行业(如钢铁行业),则更适合取利润增速作为行业景气度的代理变量。
图表: 历史上钢铁行业利润增速变化
资料来源:万得资讯,中金公司研究部。注:1)增速定义为TTM环比增速
图表: 历史上医药行业利润增速变化
资料来源:万得资讯,中金公司研究部。注:1)增速定义为TTM环比增速
大宗商品、交运、公用事业、汽车等行业利润增速的周期性变化较为明显,其景气度可取行业利润增速为代理变量。如下图所示,我们统计2004年一季度至2021年一季度各行业利润增速的波动性,不难看出,大宗商品板块(如:石油、煤炭、有色、钢铁等)、交运、公用事业、汽车等行业的利润增速波动排名靠前,说明利润增速的周期性变化明显,适合取行业利润增速为景气度的代理变量。
取毛利润增速作为景气度代理变量更合适。利润增速周期性强的行业,毛利润增速与净利润增速相关性比较高。相较而言,净利润增速容易出现低基数带来的极值现象,毛利润增速取值则相对平滑。
基于以上分析,本篇报告的行业景气度研究框架中,将取毛利润增速作为行业景气度的代理变量,重点关注如下行业:石油石化、煤炭、有色金属、电力及公用事业、钢铁、基础化工、建材、汽车、交通运输、通信、电子(参考中信一级行业分类)。
图表: 各行业中信一级行业毛利润增速的波动性统计
资料来源:万得资讯,中金公司研究部。注:1)调整标准差为毛利润增速的标准差除以ABS(均值);2)毛利润增速定义为TTM毛利润的环比增速;3)统计时间为2004年一季度至2021年一季度
图表: 各行业中信一级行业毛利润增速与净利润增速、营业收入增速的spearman相关系数
资料来源:万得资讯,中金公司研究部。注:1)增速定义为TTM环比增速;2)统计时间为2004年一季度至2021年一季度
景气度量化研究的基本原则
本篇报告的主要思路是依据行业中观的经济指标对行业景气度进行跟踪和预判,这就涉及两方面核心问题,第一个是如何筛选有效的景气度预测指标?第二个是如何综合多维
度的经济指标,得出行业基本面是否景气的结论?这两方面的问题均将围绕以下原则,在后续篇章中展开讨论:
基本面逻辑长期稳定,有利于模型外推;
历史数据充足,可以进行有效的量化检验;
数据更新频率较高,至少月度频率,具有较高的及时性。
图表: 景气度研究基本原则
资料来源:中金公司研究部
在后续章节中,我们将通过两种方式构建景气度预测模型,一种是传统的行业逻辑与相关性统计结合的方式,即:以行业逻辑框架为基础,通过经济指标与行业景气度的相关性分析,筛选出有效的景气度预测指标,并通过打分的方式形成最终景气度模型;另一种是运用机器学习的方式,即:直接将所有初筛行业中观指标作为机器学习模型的输入变量,通过XGboost模型实现景气度的预判,各指标的权重配置均内置于机器学习模型中。
两种方式各有优劣,第一种方式的优势在于强调行业基本面逻辑,景气度模型所选核心指标比较贴合投资者对行业的认知与理解,但是指标筛选时存在样本内过度优化的可能性;第二种方式的优势在于降低了样本内过度优化的可能性,严格区分机器学习的训练集和测试集,但可能出现所选指标与传统行业理解存在出入的现象。
图表: 景气度模型的两种构建方式
资料来源:中金公司研究部
结合行业逻辑与相关性分析的景气度打分模型
本章节将基于各行业基本面分析框架,筛选出与行业景气度紧密联系的指标,并通过相关性分析精选其中的关键变量,运用打分的方式将多维度核心指标的信息加以汇总,最终构建出景气度打分模型。
行业景气度模型研究思路
结合行业逻辑与相关性分析的景气度研究主要包括如下三个步骤:
第一,基于行业基本面分析框架确定景气度的主要影响因素,并对应初筛相关的中观经济指标;
第二,分别统计各个经济指标与行业景气指标(毛利润增速)历史上的相关系数,结合行业逻辑寻找各维度信息内与行业景气度最紧密相关的核心变量;
第三,运用打分的方式,将多维度信息汇总,最终构建出景气度打分模型。
图表: 行业景气度打分模型研究框架
资料来源:中金公司研究部
相关性分析的数据处理细节:我们将中观经济数据滞后一期处理(考虑到经济数据的披露时间),并通过平均的方式进行月频化处理,再计算其同比增速(若原始经济数据为同比数据,则不再计算同比增速);景气度的代理变量(毛利润增速),则对应到其业绩形成的阶段,如:2020年年报的毛利润增速,将对应为2020年10、11、12月的数据。
景气度打分模型构建细节:我们取相关性分析阶段筛选出来的景气度指标,计算各指标滚动3年的zscore指标,同一维度信息入选多个指标的情况下,则取均值作为该维度的指标值,部分维度指标可能存在短期波动较大的情况,则取三个月的移动平均值进行平滑处理。若该维度指标与景气度为正相关关系,则指标值大于0计1分,指标值小于0计0分,再将多维度指标得分加总作为该行业景气度最终得分。因此,各行业分析框架下,最终筛选出比较有效的维度越多,景气度得分的最大值越大。
景气度择时模型测试:为检验景气度模型的有效性,我们尝试依据景气度得分进行相应行业择时,即:假设每月持有该行业仓位比例为景气度当前得分除以景气度最高得分,剩余仓位等权配置所有行业,观察比较择时策略收益与行业基准收益。
各行业景气度打分模型效果
以石油石化行业为例
石油石化行业的主要产品包括三烯(乙烯、丙烯、丁二烯)、三苯(纯苯、甲苯、二甲苯)、原油/成品油。我们从主要产品的价格、产量、库存等方面初步筛选了石油石化行业景气度的影响指标,并分别统计其与行业毛利增速的相关性系数。
图表: 石油石化行业分析框架
资料来源:中金公司研究部
石油石化行业主要产品的价格指标均与行业毛利润增速相关性较高,而产量、库存指标长期来看,跟行业盈利的相关性较弱。价格是产品供需矛盾的结果,价格的变化往往也是最直接反映供需关系的演变。原油的产量通常受到地缘政治的影响较大,尤其是欧佩克原油产量,阶段性与油价会有显著的负相关,但长期来看,与行业盈利的相关性较弱。库存量方面可以拿到的指标是国家的战略库存,与行业景气度的相关性较低。
图表: 石油石化行业经济指标与行业盈利增速的相关系数统计
资料来源:万得资讯,中金公司研究部。注:1)统计期截止于2021-04-30;2)各经济指标均取其同比增速与盈利增速进行相关性统计
景气度模型构建:基于以上分析,石油石化行业景气度打分将依据主要产品类型分为三个维度:烯类、苯类、油类,各维度均取相应产品的价格指标,如烯类包括乙烯、丙烯、丁二烯,苯类包括纯苯、甲苯、二甲苯,油类包括原油价格、柴油价格。各维度内指标等权平均后,按照公式(1)将各维度得分汇总为最终的景气度得分。
由于石油石化行业景气度模型只包含3个维度,景气度得分最高分为3分,最低分为0分。2010年以来的景气度择时策略表现如上图所示。
石油石化行业景气度模型对于行业盈利、行业超额收益均有较强的预测能力。从择时策略表现来看,择时策略净值显著跑赢行业基准,仅2020年下半年出现较长时间的相对回撤。从不同景气度得分阶段内,行业毛利增速和行业指数收益表现来看,景气度越高的阶段,平均毛利增速越高、行业平均超额收益越好;景气度最高的阶段,行业超额收益胜率(47%)远超过行业总体胜率(39%)。
图表: 石油石化景气度择时策略净值
资料来源:万得资讯,中金公司研究部。注:1)截止于2021-04-30
图表: 石油石化行业不同景气度得分阶段的盈利、指数收益统计
资料来源:万得资讯,中金公司研究部。注:1)统计期为2010-01-01至2021-04-30;2)胜率统计为大于0 的概率;3)超额收益比较基准为全行业等权指数
小结:本篇报告在结合行业逻辑和相关性分析的研究框架下,尝试构建了石油石化、煤炭、有色金属、电力及公用事业、钢铁、基础化工、建材、汽车、交通运输、电子行业的景气度模型,均对相应行业的毛利润增速有较好的预测性,但是只有部分行业的景气度模型对于行业超额收益具有前瞻性,包括:石油石化、煤炭、有色金属、钢铁、建材、汽车。
图表: 各行业景气度打分模型有效性汇总
资料来源:万得资讯,中金公司研究部。注:1)统计期截止于2021-04-30;2)超额收益比较基准为全行业等权指数
基于机器学习算法的景气度模型
本章节将尝试运用机器学习模型XGboost构建各行业的景气度模型,即:依据行业分析框架初步筛选一些相关的经济指标,作为机器学习模型的输入变量,将指标的优选、权重的分配均内置于机器学习模型中,由模型进行景气度观点判断。
机器学习模型简介
当前普遍意义上的机器学习主要分成四大类,有监督学习、无监督学习、强化学习和深度学习。
有监督学习是从有标签的训练数据中学习模型,以便依据未来的输入数据给出预测观点。“监督”指的是已知样本所需要的输出信号或标签。
无监督学习处理的是无标签或结构未知的数据。使用无监督学习技术,可以在没有已知结果变量或奖励函数的指导下,探索数据结构以提取有意义的信息。
强化学习是通过奖励函数对行动进行度量,在连续的尝试和失败序列中,基于标记数据的组合与传入数据的交互来改进自身,经典案例就是国际象棋AI。
深度学习是一个较为复杂的子类,既包含了有监督的神经网络,也包括了一些无监督的预训练网络,常常交叉使用。
图表: 机器学习模型分类
资料来源:中金公司研究部
对于行业景气度的研究,最好的选择应是有监督学习的分类器模型。原因首先是我们可以基于历史数据给训练样本打上“景气”、“不景气”分类标签,方便使用有监督学习;其次是月度频率的数据量比较少,无法支持使用深度学习或者强化学习模型,相较而言,有监督学习的boosting等集成学习模型更为合适。
Boosting是一种可将弱学习器提升为强学习器的算法,先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器分错的样本获得较大的权重;然后基于调整后的样本分布来训练下一个基学习器;如此反复进行,直至基学习器数量达到指定值,最终将这些学习器进行加权结合,正确率越高的基学习器的获得的权重越大。
XGboost模型就是boosting模型的一个特例,即是极值梯度提升算法,运用梯度提升算法高效实现,也是本篇报告运用的机器学习模型。除了运算效率方面的优势外,XGboost模型还有训练结果稳定、可计算特征重要性以体现模型中的关键变量等好处。
图表: Boosting的模型框架
资料来源:中金公司研究部
景气度机器学习模型设计
行业景气度标签设置:以行业毛利润TTM环比增速作为基础数据,每月的增速指标直接取当季的数值来填充。若2005年以来环比增速大于0的比例大于70%,则将增速大于中位数的月份标记为“景气”,小于中位数的标记为“不景气”;若比例小于70%,则直接将增速大于0的月份标记为“景气”,小于0的月份标记为“不景气”。
行业景气度特征选取:景气度影响因素的初筛与上一章节相似,即:依据行业分析框架,选取相应行业内对应的库存、销量、成本、价格等相关的指标作为月度行业特征。每个行业选取在研究期内缺失值比例小于10%的特征,提高数据覆盖度。训练集缺失值填充为对应时间内的训练集的均值。
训练集和测试集的划分:将训练集和测试集在时间序列上进行滚动分割,取每10年的数据作为训练集,10年后的下一年的数据作为测试集,因此,2005年开始,共有7组训练集。
图表: 机器学习景气度模型训练集和测试集划分方式示意图
资料来源:中金公司研究部
参数优化:XGboost模型的主要参数主要包括树颗数、学习率、最大深度、最小叶子节点样本权重和以及Gamma。将第一组训练集作为调参用的交叉验证集,运用10折交叉检验进行参数优化,选取正确率最高一组参数。
图表: XGboost重要模型参数及对模型的影响程度
资料来源:中金公司研究部
机器学习景气度模型效果分析
对机器学习行业景气度模型的分析,主要聚焦于两方面,一是关注机器学习模型筛选出来的关键经济指标,帮助理解模型观点的判断依据;二是景气度模型对行业盈利和行业指数超额收益的预测准确率,反映模型的有效性。其中,识别机器学习筛选出的关键经济指标,可以关注各个经济指标的特征重要性(模型中所有经济指标的重要性得分之和为1),重要性分数越高,说明该经济指标在模型中区分能力越强。
以石油石化行业为例
石油石化行业特征重要性较高的指标除主要产品(油、苯、烯)的价格指标外,还考虑了欧佩克产量、美国战略库存、下游产品的产量。石油石化行业特征重要性得分相对分散,平均得分最高的指标是PTA价格,仅8%左右;从关键指标(平均特征重要性前十的指标)的历年重要性得分之和来看,近年重要性较高的指标组合已发生一定变化,原油现货价格的重要性得分显著提升。
图表: 石油石化行业平均特征重要性前十的指标
资料来源:万得资讯,中金公司研究部;注:平均特征重要性指各指标历年模型的特征重要性均值
图表: 石油石化行业平均特征重要性前十指标在历年模型中的重要性得分之和
资料来源:万得资讯,中金公司研究部;注:2015年模型是以2005-2014年为训练集的模型,其他年份依此类推
石油石化行业XGboost景气度模型对盈利具有一定的预测性,但对行业超额收益的前瞻性一般。景气度较高的阶段(得分为1)平均毛利增速较高,毛利增速为正的概率也高于总体水平,说明该模型对于行业盈利具有一定的预测性;但从平均超额收益率来看,景气度得分的区分度较低,说明模型对于超额收益的前瞻性有限。
图表: 石油石化行业景气度得分阶段超额收益和毛利变化率统计(XGboost)
资料来源:万得资讯,中金公司研究部;注:1)统计期为2015-01-01至2021-03-31;2)超额收益比较基准为全行业等权指数;3)胜率统计为指标大于0的概率
小结:机器学习模型应用于景气度研究有一定的效果,但也存在一些瓶颈,主要体现在以下几个方面:
优势:机器学习模型能够捕捉到一些符合行业逻辑认知,但与行业盈利总体相关性较弱的指标,如电力及公用事业的用电量指标、石油石化行业的欧佩克原油产量指标;并且从预测效果来看,大部分行业内,模型对于行业盈利的预测均有较好的效果。
不足之处:一方面,半数以上行业的XGboost景气度模型对于行业超额收益缺乏前瞻性,可能是过拟现象,也可能部分对行业景气影响较大的关键变量没有加入到模型中,这方面需要通过更精细的行业分析框架进行弥补;另一方面,XGboost景气度模型判断逻辑还是难以通过直观的语言进行表述。
图表: XGboost景气度模型在各行业内有效性汇总
资料来源:万得资讯,中金公司研究部;注:1)统计期为2015-01-01至2021-03-31;2)超额收益比较基准为全行业等权指数
总结与展望
本篇报告尝试运用中观行业数据构建行业景气模型,对行业景气度进行跟踪。经过测试,我们发现结合行业逻辑与相关性统计的景气度模型比完全基于统计结果构建的机器学习模型有效性更佳,并分别对石油石化、煤炭、有色金属、钢铁、建材、汽车、基础化工、交通运输、电子、电力及公用事业行业构建了景气度打分模型,经过测试,模型对于行业盈利的预测能力较强。
同时,由于景气度模型只考量了行业基本面的变化,并非所有行业的景气度模型都能对行业超额收益具有较好的预测性,仅石油石化、煤炭、有色金属、钢铁、建材、汽车行业景气度模型对于行业超额收益的预测能力较强。
景气度模型最新观点:周期性行业景气度整体向好
基于各行业的景气度打分模型,2021年6月观点如下:
景气度高的行业:石油石化、煤炭、钢铁、汽车、建材、基本化工、交通运输、电子
景气度一般的行业:有色金属
景气度低的行业:电力及公用事业
基于前文所述,映射到行业超额收益层面,可能仍有相对表现的行业包括:石油石化、煤炭、钢铁、建材、汽车。
图表: 2021年6月各行业不同景气度维度得分
资料来源:万得资讯,中金公司研究部
图表: 2021年6月各行业景气度综合得分
资料来源:万得资讯,中金公司研究部
研究展望
未来行业景气度的研究,我们认为可以从如下方面进一步探索。
如前文所述,机器学习模型可以帮助捕捉到与行业盈利相关性较低的、又符合行业逻辑认知的指标,体现了非线性模型在景气度研究方面的价值。但是,如何实现行业逻辑与机器学习模型的有机结合,还需进一步探索。
从景气度模型的应用效果考虑,部分行业的景气度模型虽然对盈利的预测较为有效,但无法直接由景气度观点映射到行业超额收益层面。对于这些行业内,行业景气度的应用可以考虑叠加估值或其他情绪面指标,以提升对行业超额收益的前瞻性。
风险提示:本篇报告中的测试结果均基于模型与历史数据。历史数据存在不被重复验证的可能,模型存在过拟合的风险,在市场有投资者结构或投资行为模式大幅变化的情况模型亦有可能失效。本报告不对模型样本外的择时收益表现作任何保证。