首页 > 公众号研报 > 金融科技(Fintech)和数据挖掘研究(七)——基于机器学习和知识图谱的行业轮动

金融科技(Fintech)和数据挖掘研究(七)——基于机器学习和知识图谱的行业轮动

作者:微信公众号【海通量化团队】/ 发布时间:2020-07-22 / 悟空智库整理
(以下内容从海通证券《金融科技(Fintech)和数据挖掘研究(七)——基于机器学习和知识图谱的行业轮动》研报附件原文摘录)
  重要提示:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号发布的观点和信息仅供海通证券的专业投资者参考,完整的投资观点应以海通证券研究所发布的完整报告为准。若您并非海通证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本订阅号推送内容而视相关人员为客户;市场有风险,投资需谨慎。 1 研究背景 我们在之前的行业轮动系列报告中挖掘了几大类的行业因子(见下图),例如,量价、宏观、情绪面、高频因子、预期基本面、历史基本面、公募基金观点等。这些因子通常可以分为两类:行业本身的特征以及基于共同外生变量变动的行业预期收益,但这两类因子都没有考虑行业之间的关联性。 因此,在本篇报告中,我们从另一个角度研究行业收益的可预测性:相关行业的滞后收益率。举例来说,假如我们认为,房地产是银行的相关行业,那就可以采用房地产行业的历史收益率预测未来银行的收益率。 实际上,如果市场是完全理性、无摩擦的,那么滞后行业的收益率是不应该有预测效果的。但真实的情况是,投资者处理信息的能力有限,当某个行业出现信息或冲击时,专门从事相关行业的投资者可能也无法迅速把握冲击的全部影响。因此,信息会逐渐在各个行业间扩散,导致不同行业的股票价格先后响应。这一现象构成了某些行业滞后收益率可以预测其他行业未来收益率的理论基础。 如果想要应用这一特征,最简单的方法就是直接采用除目标行业外所有其他行业的滞后收益率,与下一期目标行业收益率构建回归模型。但由于回归模型中潜在的预测因子过多,例如,可能需要几十个行业过去12-36个月的历史收益率作为预测因子。使用普通最小二乘(OLS)估计可能会存在以下两个问题。如果选择全部行业,容易产生过拟合;如果只选择几个行业因子,存在很强的主观性。为了解决这些不足,我们引入了机器学习和知识图谱两种方法,这也是本篇报告的核心之处。 2 基于Post-Lasso的行业轮动策略 2.1 Post-Lasso方法 本文采用Post-Lasso方法筛选有预测效果的行业,并以此为基础预测目标行业的未来收益。 Lasso回归,全称Least absolute shrinkage and selection operator,是一种压缩估计,也被称作线性回归的 L1 正则化。相比于普通最小二乘估计,它通过构造一个惩罚函数,在变量众多的时候,能快速有效地提取重要变量,简化模型。其目标函数的表达式如下: Post-Lasso方法是指先训练一个Lasso回归,目的是进行特征选择,保留系数不为零的特征,再用这些特征重新训练一个最小二乘回归。 相比于直接采用Lasso估计参数,Post-Lasso方法避免了过度收缩的问题,可以更准确地获得滞后行业收益中的预测信号。下式中的标记M表示Post-Lasso模型的特征集合与对应的参数估计。 值得注意的是,通常Lasso会与k折交叉验证(k-fold CV)结合,来估计目标函数中的参数lambda。但由于k-fold CV对k折的数量以及选取样本的方式(随机、时间序列等)较为敏感,故我们采用相对稳定的AIC法。 2.2 Post-Lasso的行业筛选 在下文的测试中,我们均采用中信一级行业,回溯期为2010年1月至2020年4月。根据Post-Lasso方法,在t月末,选择1到t-1时刻的数据(至少60个月)训练Lasso模型。下图列示的是各目标行业由Lasso模型选到的相关行业的平均数量。 整体来看,Lasso模型每期平均选到2.48个相关行业。即,预测某个行业收益率,平均会选择2-3个其他行业的滞后收益率作为预测变量。过去一年热点频出的电力设备及新能源行业,选到的相关行业数量最多,平均为9.24个。 下图展示的是各行业被选到的次数,每一列代表若将该行业作为目标行业,Lasso模型能选到哪些相关行业,历史上选到的次数是多少。例如,第一列的目标行业是石油石化,有64次选择了煤炭行业的滞后收益率作为因子,8次选择建筑行业、16次选择机械行业,等等。 若横向汇总每个行业被选到的次数,则可大致了解该行业在整个市场中的位置。以银行行业为例,有13个行业曾经选择其为相关行业因子,总共被选到的次数高达479次。虽然这个结果来自于纯粹的数据挖掘,但依然具有较强的经济意义,因为许多行业均依赖银行作为融资中介机构。此外,房地产行业总计被选中528次,和银行一同在29个行业中位列前五。 2.3 未选到行业的填补方法 我们发现,回测过程中部分目标行业存在未选到任何相关行业的情况。例如,下图中,农林牧渔、计算机和消费者服务等行业都有较多的时间点未选择任何行业作为预测变量。针对这种情况,我们需要采用其他方法预测目标行业未来一个月的收益。 第一种是使用Lasso模型的截距项作为替代,即当所有自变量的系数均被压缩到0,此时的截距项即为训练集中Y的均值。在本文的行业轮动模型中,截距项的实际意义为2到t月的行业月度收益均值。 第二种是使用行业动量,即t-12到t-1月的行业收益均值。事实上,第一种方法也是一类特殊的行业动量。 2.4 Post-Lasso行业轮动策略的表现 下图展示了Post-Lasso行业轮动策略的表现,未选到行业时采用动量填补法。其中,多头和空头分别取预测收益率最高和最低的5个行业。整体来看,分组收益具有单调性,多头相对基准以及多空的收益表现都较为稳定。多头年化超额收益为5.36%,空头年化超额收益为-6.38%,多空收益为11.57%。 从下表分年度的表现来看,Post-Lasso行业轮动策略除了2011年和2016年多空收益和多头相对基准的超额收益为负,以及2010年的多空收益为负以外,其他年份多空收益和多头超额收益均为正值。 下表对比了Post-Lasso和Lasso模型以及未选到相关行业时,两种填补方法的表现差异。显然,在相同的填补方法下,Post-Lasso模型优于Lasso模型。这表明,在使用Lasso筛选相关行业后,重新训练一个普通最小二乘回归得到的预测值更加精确。而在同一个模型下,动量填补法明显优于截距填补法。总的来看,采用Post-Lasso模型和动量填补的策略表现最佳,年化多空收益可以达到11.57%,T值超过3。 2.5 参数敏感性分析 机器学习方法的一个潜在问题是对参数的过度优化,本文的Post-Lasso模型也有两个主要参数,分别是初始的训练期长度和动量填补的时间跨度。 以下两表展示的是不同的初始训练期下,策略的多空收益和IC表现。整体来看,从36个月到144个月,策略的多空收益及IC均显著大于零。这表明,策略对参数——初始训练期的敏感性并不高。上文选择60个月作为参数,算不上是完全数据挖掘的结果。但也应该注意到,初始训练期越长,策略的多空收益和IC都相对更高。这样的结果同样符合逻辑,毕竟对于机器学习而言,60个月的数据并不算长。 动量填补法采用的是t-N到t-1月的行业收益均值。如下表所示,当N在8到12之间变化时,策略多空收益和因子IC都较为稳定,T值均在2以上。 2.6 和简单动量策略的对比 当Post-Lasso模型未选到任何行业作为预测变量时,我们使用了目标行业自身的动量因子作为填补。那么,不妨比较一下Post-Lasso模型和完全的动量策略,考察引入其他行业的收益率作为预测因子是否有必要。 首先,我们计算了Post-Lasso模型和3、6、12个月动量策略的相关性,结果如下表所示。不出所料,Post-Lasso模型和动量策略正相关。而且,随着动量策略的因子计算周期的拉长,相关性也越高。这是由于当Post-Lasso模型无预测变量时,我们采用的处理方法所致。 以下图表进一步对比了Post-Lasso模型和3、6、12个月动量策略的累计净值、收益风险特征及因子IC表现。 显然,Post-Lasso模型在任何一个方面都显著优于简单的动量策略。对比有部分因子重合的Post-Lasso模型和12个月动量策略,前者的年化收益为9.57%,夏普比率为0.35,IC/RankIC在0.07附近,对应的t统计量约为3,胜率也接近60%;而后者的年化收益为7.38%,夏普比率为0.26,IC/RankIC不到0.05,对应的t统计量小于2,胜率也将将超过50%。 3 基于客户-供应商关系的行业轮动策略 上文介绍的Post-Lasso模型完全通过数据驱动,得到行业收益率之间的领先-滞后关系。在实证过程中,我们也发现了很多难以解释,甚至不合逻辑的结果。例如,电子行业经常选择农林牧渔行业为预测变量。因此,建立行业关联关系更好的方法是,基于行业内在的经济逻辑,总结相关的先验知识,并固定成知识图谱,然后再为目标行业挑选预测变量。 3.1 从投入-产出关系到行业贸易网络 一类常用的建立行业之间联系的方法是基于投入产出(Input-Output,I-O)关系得到行业贸易网络(Trade Network)。例如,国家统计局公布的投入产出表就是一个很好的起点。下图给出了投入产出表的部分结构。 上图中的数字代表两个行业的中间投入。例如,“农林牧渔产品和服务”与“煤炭采选产品”交叉点对应的184819,可以视作农林牧渔行业对煤炭采选的中间投入值。 根据上表,我们可以建立两种行业网络——拉动型产业复杂网络(Pulling Industry Complex Network)和推动型产业复杂网络(Pushing Industry Complex Network)。 其中,拉动型网络是基于下游产业对上游产业的拉动作用建立的,需要从投入产出表的纵向获取产业间的关联关系。即,假设存在N个行业(投入产出表中的行业划分),xij表示第i个行业对第j个行业的中间投入。则可计算行业i对行业j的中间投入在所有行业对行业j中间投入总和中的占比,具体形式如下: 依然以前文“农林牧渔产品和服务”与“煤炭采选产品”交叉点对应的184819为例,若要计算煤炭采选行业对农林牧渔行业的拉动作用,只需用184819除以“煤炭采选产品”这一列的所有数值之和。 显然,行业之间的拉动作用有强弱之分。一般情况下,我们只对那些联结比较紧密、拉动作用较强的行业关系感兴趣。因此,在得到最终的拉动网络时,往往会人为地切断一些行业之间的联系。在本文中,我们选择1/(行业个数N-1)为存在关联关系的阈值。即,PULLij大于阈值时,认为行业i和j互相关联,在网络图中表示为存在连接边;否则,两个行业不存在连接边。为了便于数据处理,进一步把这种形态的网络转化为一个N*N的拉动矩阵。当行业i和j存在连接边时,则该矩阵第i行、第j列的元素为1;否则,元素为0。 与拉动型网络对应的则是推动型网络,它基于上游产业对下游产业的推动作用建立,需要从投入产出表的横向获取产业间的关联关系。即,行业i对行业j的中间投入在行业i对所有行业中间投入总和中的占比,具体形式如下: 类似地,我们依然以1/(行业个数N-1)为阈值来界定推动作用的存在与否,并得到只包含0、1两个值的推动矩阵。 有了拉动和推动这两种产业网络,我们就可以进一步汇总得到强关系产业复杂网络(Strong Ties Industry Complex Network)和弱关系产业复杂网络(Weak Ties Industry Complex Network)。其中,强关系网络是产业间拉动和推动关系同时存在而形成的。即行业i和j在拉动矩阵和推动矩阵中的元素值均为1。此时,记强关系网络对应的矩阵中的相应元素为1;否则,元素为0。基于2015年的投入产出表,可得如下的强关系网络。 平均而言,每个行业都和2-3个行业有强关系。如,卫生和社会工作与化学产品及专用设备分别连接,代表卫生和社会工作和后两者既存在下游对上游的拉动,也存在上游对下游的推动。理论上,一个冲击卫生和社会工作行业的信息,应当会逐渐扩散至另外两个行业;反之亦然。 弱关系网络则是产业间拉动或推动关系单强时形成的网络结构。即,行业i和j只要在拉动矩阵或推动矩阵中的对应元素为1,即认为这两个行业形成弱关系网络,并记对应矩阵中的相应元素为1。同样基于2015年的投入产出表,可生成如下的弱关系网络。 和强关系网络中较为稀疏的分布不同,弱关系网络中的联结十分密集,每个行业平均存在7-8个弱关系。 有了这两种汇总网络,我们就可以直观地确定某一目标行业的预测变量,即和它有关联关系的行业的滞后收益率。举例来说,要预测2020年4月的卫生和社会工作行业的收益,首先是从关系网中读取它的关联行业,如强关系网络中的化学产品和专用设备。其次,用这两个行业的滞后收益率作为自变量,卫生和社会工作行业当期收益率作为因变量建立线性回归模型。和前文使用Lasso模型选取预测变量不同,基于贸易网络的方法源于对行业之间投入-产出关系的归纳,是通过社会经济基本面的运行逻辑来筛选预测变量。理论上,其效果应当优于单纯的数据挖掘。 然而,如果我们想要把上述由统计局公布的投入产出表形成的行业贸易网络,用于指导实际的行业轮动,可能会存在以下几个问题。 (1)投入产出表的行业划分与常用的上市公司行业分类标准,如,申万、中信一级行业不同。因此,如果要以后两者之一为基础构建行业轮动策略,则需要手动将两种行业分类重新匹配,不仅费时费力,而且具有很强的主观性。 (2)投入产出表的更新频率较低。我国一般每五年编制一版投入产出表,这意味着由此建立的行业贸易网络,可能5年都不会发生变化。在此期间,某一目标行业的预测变量也将是长期不变的。这似乎较难适应当前的经济环境和日新月异的行业变化。 (3)投入产出表的披露滞后期过长。例如,《2017年投入产出表》于2019年9月发布,由此得到的行业关联关系也将落后至少2年的时间。 为了克服上述问题,获得更新频率高、数据时效性强且和常用分类方式一致的行业贸易网络,本文在保留网络构建方法的基础上,用FactSet的供应链数据代替投入产出表,建立A股市场的行业关系网,并设计相应的行业轮动策略。 3.2 基于上市公司的客户-供应商关系构建行业贸易网络 FactSet供应链数据库中A股上市公司的客户-供应商关系,实际上类似于前文提到的投入-产出关系。因此,我们只需将个股的客户-供应商关系映射到行业,并以每个客户的营收作为中间投入,汇总得到行业两两之间的中间投入,就可以生成新的行业投入产出表。进而就可以按照上一节介绍的方法得到强/弱关系网络,筛选预测变量。整个流程如下图所示。 FactSet供应链数据的更新频率高,因而可以被用来构建月频的行业轮动策略。以2020年3月底为例,我们根据FactSet的客户-供应商数据生成了如下的行业强、弱关系网络。和前文用投入-产出关系构建的结果相比,不论是基本结构还是稀疏程度都较为接近。这表明,用客户-供应商关系来近似投入-产出关系,还是一个不错的尝试。 下图展示了强关系网络和弱关系网络每期选取的有关联关系的行业数量均值。总体来看,两类网络的结构都较为稳定。其中,强关系网络的关联行业保持在2-3个,弱关系网络则为6-7个。这些数值同样与前文从投入产出表中获取的结果十分相近。 3.3 行业轮动策略 有了行业关系网络,轮动策略的设计也变得较为简单。首先,在每个月末根据关系网确定每个行业的预测变量。其次,以24个月为窗宽,建立目标行业收益率和预测变量滞后收益率的线性回归模型。最后,预测最新一期的目标行业收益率,从大到小排序后选取最高(低)的5个行业形成等权重的多(空)头组合。 下图给出了基于强关系网络的行业轮动策略的表现。其中,多头组合相对全行业平均这一基准的年化超额收益为8.44%,空头组合的年化超额收益为-10.84%。多空收益为19.44%,最大回撤为10.53%。 从上述结果来看,从投入-产出关系出发构建行业关系网,并以此来确定行业之间的领先-滞后关系,最终得到的行业轮动策略有较好的效果,也符合我们设计模型的初衷。 下图是利用弱关系网络构建的行业轮动策略的收益表现。其中,多头组合的年化超额收益为1.67%,空头组合的年化超额收益为-6.55%。多空收益为7.98%,最大回撤为9.91%。相对而言,策略的空头效应更为突出。 下表对比了在强/弱两种关系网下的行业轮动策略与前文的Post-Lasso模型的收益表现。作为基准,我们还选取了两个更为简单的回归模型:(1)预测变量为行业自身的滞后收益;(2)预测变量为全部行业的滞后收益。具体结果如下表所示。 由上表可见,不对自变量做任何筛选的两个基准策略,均不能得到显著异于0的多空收益。相比之下,不论是用机器学习中的Post-Lasso模型,还是从知识图谱中获取先验信息构建强关系网,都可以得到显著且稳定的多空收益。从2017年以来的回测结果看,机器学习方法似乎略胜一筹。 4 总结 由于信息传递存在滞后性,某些行业的滞后收益率可用来预测其他行业的预期收益。实现这一目标的一种最简单的做法是将所有行业的历史收益率放入回归模型,但过高的维数会导致OLS估计的效率快速降低。因此,对预测变量进行筛选是提高模型预测能力的有效途径。本文尝试了机器学习中的Post-Lasso模型和引入含先验信息的知识图谱两种方法。 Post-Lasso模型包含两个步骤:(1)用Lasso方法筛选预测变量;(2)用上一步中的预测变量建立回归模型。在2010/1-2020/4期间,由此得到的行业轮动策略的多头年化超额收益为5.36%,空头年化超额收益为-6.38%,多空收益为11.57%。 根据FactSet供应链数据中的A股上市公司的客户-供应商关系,我们建立了行业之间的强关系网络。在2017/1-2020/4期间,由此得到的行业轮动策略多头年化超额收益为8.44%,空头组合的年化超额收益为-10.84%。多空收益为19.44%,最大回撤为10.53%。 4 风险提示 数据挖掘是从历史先验数据获取经验模型的方法,存在模型失效可能。 联系人:张振岗,021-23154386 “金融科技(FinTech)和数据挖掘研究”回顾 【点击标题可链接至报告原文】 1、数据挖掘技术框架简介 2、知识图谱的构建与应用 3、量化因子的批量生产与集中管理 4、FactSet供应链数据的介绍与应用 5、FactSet供应链数据在A股上的应用 6、利用数据挖掘构建热点主题组合 法律声明: 本公众订阅号(微信号:海通量化团队)为海通证券研究所金融工程运营的唯一官方订阅号,本订阅号所载内容仅供海通证券的专业投资者参考使用,仅供在新媒体背景下的研究观点交流;普通个人投资者由于缺乏对研究观点或报告的解读能力,使用订阅号相关信息或造成投资损失,请务必取消订阅本订阅号,海通证券不会因任何接收人收到本订阅号内容而视其为客户。 本订阅号不是海通研究报告的发布平台,客户仍需以海通研究所通过研究报告发布平台正式发布的完整报告为准。 市场有风险,投资需谨慎。在任何情况下,本订阅号所载信息或所表述的意见并不构成对任何人的投资建议,对任何因直接或间接使用本订阅号刊载的信息和内容或者据此进行投资所造成的一切后果或损失,海通证券不承担任何法律责任。 本订阅号所载的资料、意见及推测有可能因发布日后的各种因素变化而不再准确或失效,海通证券不承担更新不准确或过时的资料、意见及推测的义务,在对相关信息进行更新时亦不会另行通知。 本订阅号的版权归海通证券研究所拥有,任何订阅人如欲引用或转载本订阅号所载内容,务必联络海通证券研究所并获得许可,并必注明出处为海通证券研究所,且不得对内容进行有悖原意的引用和删改。 海通证券研究所金融工程对本订阅号(微信号:海通量化团队)保留一切法律权利。其它机构或个人在微信平台以海通证券研究所金融工程名义注册的、或含有“海通证券研究所金融工程团队或小组”及相关信息的其它订阅号均不是海通证券研究所金融工程官方订阅号。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。