【华泰金工林晓明团队】AlphaNet改进:结构和损失函数——华泰人工智能系列之四十六
(以下内容从华泰证券《【华泰金工林晓明团队】AlphaNet改进:结构和损失函数——华泰人工智能系列之四十六》研报附件原文摘录)
林晓明 S0570516010001 研究员 SFC No. BPY421 李子钰 S0570519110003 研究员 何 康 S0570520080004 SFC No. BRB318 研究员 王晨宇 S0570119110038 联系人 报告发布时间:2021年7月4日 摘要 本文提出AlphaNet的三个改进方向,均取得理想的改进效果 在华泰金工前期报告《AlphaNet:因子挖掘神经网络》(2020.6.14)和《再探AlphaNet:结构和特征优化》(2020.8.24)中,我们构建了端到端的因子挖掘和因子合成模型AlphaNet,深度学习的灵活性使得其具有很大的改进和定制空间。本文对市场规律和模型特点进行深入思考,提出了AlphaNet的三个改进方向:(1) 特征提取层自定义Dropout机制;(2)损失函数加入中性化机制;(3)损失函数中提高多头样本权重。我们以前期报告中的AlphaNet-v2模型作为基线模型,对三个改进方向进行了测试,在测试中均取得了理想的改进效果。 特征提取层自定义Dropout机制:控制过拟合,提升模型训练速度 Dropout是神经网络中常用的控制过拟合技巧。本文借鉴Dropout的思想,针对AlphaNet的特征提取层实现了自定义Dropout机制:对二元运算函数(ts_corr,ts_cov等)进行抽样遍历,该机制可从以下三点改善模型:(1) 节约二元运算函数的计算开销,提升训练速度。此外由于计算开销的下降,更多原始特征可以输入模型,有可能提升模型的预测能力。(2)抽样遍历得到的特征之间相关性下降,有利于控制过拟合。(3) 可降低不同随机数种子下训练模型的相关性,有利于模型集成。测试中,加入自定义Dropout机制的AlphaNet在收益方面的表现有小幅提升,同时训练耗时明显减少。 损失函数加入中性化机制:剔除风格,挖掘更纯粹的Alpha因子 为了挖掘具有增量信息的因子,本文将因子中性化机制加入到AlphaNet的损失函数中,新的损失函数可引导模型挖掘与Barra风格因子相关性较低的因子,降低风格暴露,使得模型的预测结果具有更纯粹的Alpha属性。测试中,AlphaNet的损失函数加入中性化机制后,模型的超额收益虽然下降但是稳定性大幅提升,对回撤和波动的控制都显著改善,模型在2014年底、2019年初、2020年初的超额收益回撤都明显减小。值得注意的是,损失函数的中性化机制不仅适用于AlphaNet,也适用于任何神经网络选股模型,是一个通用的方法。 损失函数中提高多头样本权重:挖掘具有显著多头收益的因子 由于A股做空手段有限,在A股进行因子投资一个常见问题是如何挖掘具有显著多头收益的因子。针对AlphaNet,可通过提高多头样本权重来引导模型挖掘具有显著多头收益的因子。测试中,提高多头样本权重的AlphaNet在分层测试中TOP组合收益率、TOP组合信息比率更高,构建中证500指数增强组合的年化超额收益率、信息比率更高。该方法是一种简单而行之有效的方法,无需从底层代码对网络进行修改,其他神经网络选股模型也可进行尝试。 风险提示:本报告对历史数据进行梳理总结,历史结果不能简单预测未来,规律存在失效风险,投资需谨慎。基金过往业绩并不预示其未来表现,基金管理人管理的其它基金业绩并不构成对基金未来业绩表现的保证。 本文研究导读 在华泰金工前期报告《AlphaNet:因子挖掘神经网络》(2020.6.14)和《再探AlphaNet:结构和特征优化》(2020.8.24)中,我们构建了端到端的因子挖掘和因子合成模型AlphaNet,并开发了多个版本的模型。 深度学习的灵活性使得其具有很大的改进和定制空间。过去一年时间里,我们对市场规律和模型特点进行了深入思考,提出了AlphaNet的三个改进方向并测试其有效性。 AlphaNet的三个改进方向 特征提取层自定义Dropout机制 Dropout是神经网络中常用的控制过拟合技巧。2012年,Alex Krizhevsky、Geoffrey E. Hinton在其论文“ImageNet Classification with Deep Convolutional Neural Networks”中最早使用了Dropout用于防止过拟合;该论文构建的AlexNet网络在当时取得了最佳的图像分类效果,此后Dropout被广泛用于神经网络中。下图右侧展示了Dropout的原理,在神经网络的前向传播中,使得每个神经元以一定概率p不输出激活值,从而减少网络中的连接。本文参照Dropout的原理,为AlphaNet的特征提取层设计了自定义Dropout机制。 加入自定义Dropout机制后,需要确定抽样特征数量n的取值,n取值太小会使得抽样得到的特征太少,影响模型表现,n取值太大则会降低自定义Dropout机制的效果。由于我们会训练10个模型然后集成,本文的原则是在训练出的10个模型中,尽量遍历完所有的两两特征组合;在该原则下,为了获得n的最优取值,我们进行模拟特征抽样测试,考察不同n的取值下能够覆盖的两两特征组合比例。我们设定模拟次数为1000次,原始特征数量为15个,设n=[6,7,8,9,10,11],下图展示了在不同n的取值下,10个模型中能够覆盖的两两特征组合比例。 特征提取层自定义Dropout机制能带来以下三点优势: 1.节约二元运算函数(ts_corr,ts_cov等)的计算开销,提升模型训练速度。另外由于计算开销的下降,更多原始特征可以输入模型,有可能提升模型的预测能力。 2.Dropout最主要的功能就是控制过拟合。相比完全遍历,自定义Dropout机制的抽样遍历得到的特征之间相关性下降,有利于控制过拟合。 3.在AlphaNet的训练中我们使用不同的随机数种子训练多个模型后集成。自定义Dropout机制可以降低不同随机数种子下训练模型的相关性,更有利于模型集成。 最后,读者可能会有一个疑问:为什么不直接在特征提取层后加Dropout层而是实现自定义Dropout机制?本文的回答如下: 1.直接在特征提取层后加Dropout层并不能降低计算开销,二元运算函数仍需对全部特征进行两两遍历。 2.相比使用Keras的Dropout API,自定义Dropout机制更能保证我们对模型的可控性。 损失函数改进:加入中性化机制 多因子选股框架中,一直以来一个备受关注的问题是如何挖掘相对于现有因子具有增量信息的因子,因子中性化是研究该问题的主要方法。针对该问题,我们将因子中性化机制加入到AlphaNet的损失函数中。 加入中性化机制的损失函数可以引导AlphaNet挖掘与Barra风格因子相关性较低的因子,降低风格暴露,使得AlphaNet的预测结果具有更纯粹的Alpha属性。本文所使用的Barra风格因子可参见附录。 损失函数改进:提高多头样本权重 由于A股做空手段有限,空头收益较难获取,在A股进行因子投资一个常见问题是如何挖掘具有显著多头收益的因子。在AlphaNet中,可以通过提高多头样本权重来引导模型挖掘具有显著多头收益的因子。 针对AlphaNet,我们可以提升训练集样本中多头样本的权重来引导模型挖掘具有显著多头收益的因子。 测试流程 基线模型和改进模型说明 我们以前期报告《再探AlphaNet:结构和特征优化》(2020.08.24)中的AlphaNet-v2为本文的基线模型(baseline model)。本文介绍的三种改进方式都在AlphaNet-v2上进行,并与AlphaNet-v2进行测试对比。AlphaNet-v2的结构如下图所示。 三个改进模型的说明如下: 数据准备 1.股票池:全A股。剔除ST、PT股票,剔除每个截面期下一交易日涨跌停和停牌的股票。 2.原始特征:个股日频量价信息,如图表8所示。对于每只股票,将其量价数据拼接成15*30的“数据图片”,30为历史时间天数。 3.预测目标:个股10天后标准化的收益率。 4.回测区间:2011年1月31日至2021年6月30日。 5.样本内数据大小:每次训练都使用过去1500个交易日的数据作为样本内数据,每隔两天采样一次。 6.训练集和验证集比例:按照时间先后进行4:1划分,训练集在前,验证集在后。 模型训练和预测方式 1.模型训练:从2011年1月31日开始,每隔半年进行滚动训练。样本内数据为过去1500个交易日的数据,训练集和验证集按照4:1划分。 2.模型预测:在每个样本外数据截面上,使用最新训练的模型预测。 考虑到神经网络的训练受随机数种子影响较大,我们会训练10个模型,并将10个模型的预测结果做等权平均,取该平均值为AlphaNet的合成因子。 模型测试方式 对于三个改进模型合成的因子,在全A股内测试,并与基线模型AlphaNet-v2进行对比。 1.单因子IC 测试和分层测试。分析因子的RankIC均值、ICIR、分层组合年化收益率等指标。 2.构建行业市值中性的中证500增强策略进行回测。分析策略的年化超额收益率、信息比率、超额收益最大回撤等指标。 特征提取层自定义Dropout机制的测试结果 本章我们对比以下两个模型的测试结果: AlphaNet-v2:结构参见图表6。 AlphaNet-v2.1:加入特征提取层自定义Dropout机制的AlphaNet-v2模型,抽样特征数量n=8。 单因子IC测试的方法如下: 样本空间:全A股。剔除ST、PT股票,剔除每个截面期下一交易日涨跌停和停牌的股票。 回测区间:2011年1月31日到2021年6月30日。 截面期:每隔10个交易日,用当前截面期因子值与当前截面期至下个截面期内的个股收益计算RankIC 值。 因子进行行业市值中性。 单因子分层测试的方法如下: 股票池、回测区间、截面期均与IC测试一致。 换仓:在每个截面期得到预测值,构建分层组合,在截面期下一个交易日按当日vwap换仓,交易费用为单边千分之二。 分层方法:先将因子暴露度向量进行一定预处理,将股票池内所有个股按处理后的因子值从大到小进行排序,等分N层,每层内部的个股等权重配置。当个股总数目无法被N整除时采用任一种近似方法处理均可,实际上对分层组合的回测结果影响很小。分层测试中的基准组合为股票池内所有股票的等权组合。 多空组合收益计算方法:用Top组每天的收益减去Bottom组每天的收益,得到每日多空收益序列r_1,r_2,cdots,r_n,则多空组合在第n天的净值等于(1+r_1)(1+r_2)cdots(1+r_n)。 因子进行行业市值中性。 构建行业市值中性的指数增强策略回测的方法如下: 股票池、回测区间、与IC测试一致。 换仓:周频调仓。在每个截面期得到预测值,通过组合优化模型得到新的持仓股票和权重,在截面期下一个交易日按当日vwap换仓,交易费用为单边千分之二,每次调仓双边换手率限制在30%。 单因子IC测试 下方两图为AlphaNet-v2.1和AlphaNet-v2的IC测试结果。相比AlphaNet-v2,AlphaNet-v2.1的RankIC均值略高,IC_IR略低,二者总体表现接近。 单因子分层测试 下方图表为AlphaNet-v2.1和AlphaNet-v2的分层测试结果。相比AlphaNet-v2,AlphaNet-v2.1的TOP组合收益率略高,但TOP组合信息比率和胜率略低,二者总体表现接近。 图表11:AlphaNet-v2.1和AlphaNet-v2合成因子分层测试结果(回测期20110131~20210630) 构建行业市值中性的中证500增强策略进行回测 下方图表为使用AlphaNet-v2.1和AlphaNet-v2构建中证500增强组合的测试结果。相比AlphaNet-v2,AlphaNet-v2.1的年化超额收益率、信息比率、Calmar比率更高。 小结 加入特征提取层自定义Dropout机制后,AlphaNet在收益方面的表现有小幅提升,同时训练耗时明显减少,有助于在今后的研究中加入更多特征。 损失函数改进:加入中性化机制的测试结果 本章我们对比以下两个模型的测试结果: 1.AlphaNet-v2:结构参见图表6。 2.AlphaNet-v2.2:在AlphaNet-v2模型基础上,对损失函数加入中性化机制,中性化因子为Barra十大风格因子。 单因子IC测试 下方两图为AlphaNet-v2.2和AlphaNet-v2的IC测试结果。相比AlphaNet-v2,AlphaNet-v2.2的RankIC均值较低,这是因为AlphaNet-v2.2已剔除了Barra十大风格因子的信息,更能反映模型挖掘出的增量Alpha,同时也规避了风格因子所带来的波动,IC_IR较高。 单因子分层测试 下方图表为AlphaNet-v2.2和AlphaNet-v2的分层测试结果。相比AlphaNet-v2,AlphaNet-v2.2的TOP组合收益率较低,但TOP组合信息比率更高。 构建行业市值中性的中证500增强策略进行回测 下方图表为使用AlphaNet-v2.2和AlphaNet-v2构建中证500增强组合的测试结果。相比AlphaNet-v2,AlphaNet-v2.2的年化超额收益率较低,但超额收益最大回撤和Calmar比率显著改善,2014年底、2019年初、2020年初的超额收益回撤都明显减小。 小结 损失函数加入中性化机制的AlphaNet能够挖掘更纯粹的alpha,模型的超额收益虽然下降但是稳定性大幅提升,对回撤和波动的控制都显著改善。值得注意的是,损失函数的中性化机制不仅适用于AlphaNet,也适用于任何神经网络选股模型,是一个通用的方法。 损失函数改进:提高多头样本权重的测试结果 本章我们对比以下两个模型的测试结果: 1.AlphaNet-v2:结构参见图表6。 2.AlphaNet-v2.3:在AlphaNet-v2模型基础上,对每个截面中收益率排名前50%的样本设置权重为2,排名后50%的样本设置权重为1。 单因子IC测试 下方两图为AlphaNet-v2.3和AlphaNet-v2的IC测试结果。相比AlphaNet-v2,AlphaNet-v2.3的RankIC均值略高,IC_IR略低。 单因子分层测试 下方图表为AlphaNet-v2.3和AlphaNet-v2的分层测试结果。相比AlphaNet-v2,AlphaNet-v2.3的TOP组合收益率、TOP组合信息比率更高,提高多头样本权重的损失函数表现出了应有的作用。 构建行业市值中性的中证500增强策略进行回测 下方图表为使用AlphaNet-v2.3和AlphaNet-v2构建中证500增强组合的测试结果。相比AlphaNet-v2,AlphaNet-v2.3的年化超额收益率、信息比率更高。 小结 损失函数中提高多头样本权重的方法是一种简单而行之有效的方法,无需从底层代码对网络进行修改,其他神经网络选股模型也可进行尝试。 总结 本文提出了AlphaNet的三个改进方向:(1) 特征提取层自定义Dropout机制;(2)损失函数加入中性化机制;(3)损失函数中提高多头样本权重。我们以前期报告中的AlphaNet-v2模型作为基线模型,对三个改进方向进行了测试,在测试中均取得了理想的改进效果。 特征提取层自定义Dropout机制:控制过拟合,提升模型训练速度。Dropout是神经网络中常用的控制过拟合技巧。本文借鉴Dropout的思想,针对AlphaNet的特征提取层实现了自定义Dropout机制:对二元运算函数(ts_corr,ts_cov等)进行抽样遍历,该机制可从以下三点改善模型:(1) 节约二元运算函数的计算开销,提升训练速度。此外由于计算开销的下降,更多原始特征可以输入模型,有可能提升模型的预测能力。(2)抽样遍历得到的特征之间相关性下降,有利于控制过拟合。(3) 可降低不同随机数种子下训练模型的相关性,有利于模型集成。测试中,加入自定义Dropout机制的AlphaNet在收益方面的表现有小幅提升,同时训练耗时明显减少。 损失函数加入中性化机制:剔除风格,挖掘更纯粹的Alpha因子。为了挖掘相对于现有因子具有增量信息的因子,本文将因子中性化机制加入到AlphaNet的损失函数中,新的损失函数可引导模型挖掘与Barra风格因子相关性较低的因子,降低风格暴露,使得模型的预测结果具有更纯粹的Alpha属性。测试中,AlphaNet的损失函数加入中性化机制后,模型的超额收益虽然下降但是稳定性大幅提升,对回撤和波动的控制都显著改善,模型在2014年底、2019年初、2020年初的超额收益回撤都明显减小。值得注意的是,损失函数的中性化机制不仅适用于AlphaNet,也适用于任何神经网络选股模型,是一个通用的方法。 损失函数中提高多头样本权重:挖掘具有显著多头收益的因子。由于A股做空手段有限,在A股进行因子投资一个常见问题是如何挖掘具有显著多头收益的因子。在AlphaNet中,可通过提高多头样本权重来引导模型挖掘具有显著多头收益的因子。测试中,提高多头样本权重的AlphaNet在分层测试中TOP组合收益率、TOP组合信息比率更高,构建中证500指数增强组合的年化超额收益率、信息比率更高。该方法是一种简单而行之有效的方法,无需从底层代码对网络进行修改,其他神经网络选股模型也可进行尝试。 风险提示 通过人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。神经网络受随机性影响较大,可解释性较低,使用需谨慎。 附录:Barra风险因子模型 本文使用的Barra USE4模型包含十个风格因子,其具体定义如下: 免责声明 公众号平台免责声明 本公众平台不是华泰证券研究所官方订阅平台。相关观点或信息请以华泰证券官方公众平台为准。根据《证券期货投资者适当性管理办法》的相关要求,本公众号内容仅面向华泰证券客户中的专业投资者,请勿对本公众号内容进行任何形式的转发。若您并非华泰证券客户中的专业投资者,请取消关注本公众号,不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限,若给您造成不便,烦请谅解!本公众号旨在沟通研究信息,交流研究经验,华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号研究报告有关内容摘编自已经发布的研究报告的,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。如需了解详细内容,请具体参见华泰证券所发布的完整版报告。 本公众号内容基于作者认为可靠的、已公开的信息编制,但作者对该等信息的准确性及完整性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对客户私人投资建议。订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。普通投资者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券股份有限公司所有,未经公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。 华泰金工深度报告一览 金融周期系列研究(资产配置) 【华泰金工林晓明团队】2020年中国市场量化资产配置年度观点——周期归来、机会重生,顾短也兼长20200121 【华泰金工林晓明团队】量化资产配置2020年度观点——小周期争明日,大周期赢未来20200116 【华泰金工林晓明团队】风险预算模型如何度量风险更有效-改进风险度量方式稳定提升风险模型表现的方法 【华泰金工林晓明团队】周期双底存不确定性宜防守待趋势——短周期底部拐头机会渐增,待趋势明朗把握或更大20191022 【华泰金工林晓明团队】二十年一轮回的黄金投资大周期——黄金的三周期定价逻辑与组合配置、投资机会分析20190826 【华泰金工林晓明团队】如何有效判断真正的周期拐点?——定量测度实际周期长度提升市场拐点判准概率 【华泰金工林晓明团队】基钦周期的长度会缩短吗?——20190506 【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(下) 【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(上) 【华泰金工林晓明团队】周期轮动下的BL资产配置策略 【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究 【华泰金工林晓明团队】市场拐点的判断方法 【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告(上) 【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(四)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(三)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(二)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(一)——华泰金工周期系列研究 【华泰金工林晓明团队】华泰金工周期研究系列 · 基于DDM模型的板块轮动探索 【华泰金工林晓明团队】市场周期的量化分解 【华泰金工林晓明团队】周期研究对大类资产的预测观点 【华泰金工林晓明团队】金融经济系统周期的确定(下)——华泰金工周期系列研究 【华泰金工林晓明团队】金融经济系统周期的确定(上)——华泰金工周期系列研究 【华泰金工林晓明团队】全球多市场择时配置初探——华泰周期择时研究系列 行业指数频谱分析及配置模型:市场的周期分析系列之三 【华泰金工林晓明团队】市场的频率——市场轮回,周期重生 【华泰金工林晓明团队】市场的轮回——金融市场周期与经济周期关系初探 周期起源 【华泰金工林晓明团队】金融经济周期的耗散结构观——华泰周期起源系列研究之十 【华泰金工林晓明团队】经济系统中有序市场结构的进化——华泰周期起源系列研究报告之九 【华泰金工林晓明团队】企业间力的产生、传播和作用效果——华泰周期起源系列研究之八 【华泰金工林晓明团队】耦合振子同步的藏本模型——华泰周期起源系列研究之七 【华泰金工林晓明团队】周期在供应链管理模型的实证——华泰周期起源系列研究之六 【华泰金工林晓明团队】不确定性与缓冲机制——华泰周期起源系列研究报告之五 【华泰金工林晓明团队】周期是矛盾双方稳定共存的结果——华泰周期起源系列研究之四 【华泰金工林晓明团队】周期是不确定性条件下的稳态——华泰周期起源系列研究之三 【华泰金工林晓明团队】周期趋同现象的动力学系统模型——华泰周期起源系列研究之二 【华泰金工林晓明团队】从微观同步到宏观周期——华泰周期起源系列研究报告之一 FOF与金融创新产品 【华泰金工林晓明团队】养老目标基金的中国市场开发流程--目标日期基金与目标风险基金产品设计研究 【华泰金工】生命周期基金Glide Path开发实例——华泰FOF与金融创新产品系列研究报告之一 因子周期(因子择时) 【华泰金工林晓明团队】市值因子收益与经济结构的关系——华泰因子周期研究系列之三 【华泰金工林晓明团队】周期视角下的因子投资时钟--华泰因子周期研究系列之二 【华泰金工林晓明团队】因子收益率的周期性研究初探 择时 【华泰金工林晓明团队】波动率与换手率构造牛熊指标——华泰金工量化择时系列 【华泰金工林晓明团队】A股市场低开现象研究 【华泰金工林晓明团队】华泰风险收益一致性择时模型 【华泰金工林晓明团队】技术指标与周期量价择时模型的结合 【华泰金工林晓明团队】华泰价量择时模型——市场周期在择时领域的应用 中观基本面轮动 【华泰金工林晓明团队】行业配置落地:指数增强篇——华泰中观基本面轮动系列之十 【华泰金工林晓明团队】行业配置策略:拥挤度视角——华泰中观基本面轮动系列之九 【华泰金工林晓明团队】行业配置策略:景气度视角——华泰中观基本面轮动系列之八 【华泰金工林晓明团队】行业配置策略:趋势追踪视角——华泰中观基本面轮动系列之七 【华泰金工林晓明团队】行业配置策略:宏观因子视角——华泰中观基本面轮动系列之六 【华泰金工林晓明团队】行业全景画像:投入产出表视角——华泰中观基本面轮动系列之五 【华泰金工林晓明团队】行业全景画像:改进杜邦拆解视角——华泰中观基本面轮动系列之四 【华泰金工林晓明团队】行业全景画像:风格因子视角 ——华泰中观基本面轮动系列之三 【华泰金工林晓明团队】行业全景画像:宏观因子视角 ——华泰中观基本面轮动系列之二 【华泰金工林晓明团队】确立研究对象:行业拆分与聚类——华泰中观基本面轮动系列之一 行业轮动 【华泰金工林晓明团队】不同协方差估计方法对比分析(二)——华泰行业轮动系列报告之十三 【华泰金工林晓明团队】拥挤度指标在行业配置中的应用——华泰行业轮动系列报告之十二 【华泰金工林晓明团队】基于投入产出表的产业链分析 ——华泰行业轮动系列报告之十一 【华泰金工林晓明团队】不同协方差估计方法对比分析——华泰行业轮动系列报告之十 【华泰金工林晓明团队】景气度指标在行业配置中的应用——华泰行业轮动系列报告之九 【华泰金工林晓明团队】再探周期视角下的资产轮动——华泰行业轮动系列报告之八 【华泰金工林晓明团队】“华泰周期轮动”基金组合改进版——华泰行业轮动系列报告之七 【华泰金工林晓明团队】“华泰周期轮动”基金组合构建——华泰行业轮动系列之六 【华泰金工林晓明团队】估值因子在行业配置中的应用——华泰行业轮动系列报告之五 【华泰金工林晓明团队】动量增强因子在行业配置中的应用——华泰行业轮动系列报告之四 【华泰金工林晓明团队】财务质量因子在行业配置中的应用——华泰行业轮动系列报告之三 【华泰金工林晓明团队】周期视角下的行业轮动实证分析——华泰行业轮动系列之二 【华泰金工林晓明团队】基于通用回归模型的行业轮动策略——华泰行业轮动系列之一 Smartbeta 【华泰金工林晓明团队】重剑无锋:低波动 Smart Beta——华泰 Smart Beta 系列之四 【华泰金工林晓明团队】投资优质股票:红利类Smart Beta——华泰Smart Beta系列之三 【华泰金工林晓明团队】博观约取:价值和成长Smart Beta——华泰Smart Beta系列之二 【华泰金工林晓明团队】Smart Beta:乘风破浪趁此时——华泰Smart Beta系列之一 【华泰金工林晓明团队】Smartbeta在资产配置中的优势——华泰金工Smartbeta专题研究之一 多因子选股 【华泰金工林晓明团队】华泰单因子测试之历史分位数因子——华泰多因子系列之十三 【华泰金工林晓明团队】桑土之防:结构化多因子风险模型——华泰多因子系列之十二 【华泰金工林晓明团队】华泰单因子测试之海量技术因子——华泰多因子系列之十一 【华泰金工林晓明团队】因子合成方法实证分析 ——华泰多因子系列之十 【华泰金工林晓明团队】华泰单因子测试之一致预期因子 ——华泰多因子系列之九 【华泰金工林晓明团队】华泰单因子测试之财务质量因子——华泰多因子系列之八 【华泰金工林晓明团队】华泰单因子测试之资金流向因子——华泰多因子系列之七 【华泰金工林晓明团队】华泰单因子测试之波动率类因子——华泰多因子系列之六 【华泰金工林晓明团队】华泰单因子测试之换手率类因子——华泰多因子系列之五 【华泰金工林晓明团队】华泰单因子测试之动量类因子——华泰多因子系列之四 【华泰金工林晓明团队】华泰单因子测试之成长类因子——华泰多因子系列之三 【华泰金工林晓明团队】华泰单因子测试之估值类因子——华泰多因子系列之二 【华泰金工林晓明团队】华泰多因子模型体系初探——华泰多因子系列之一 【华泰金工林晓明团队】五因子模型A股实证研究 【华泰金工林晓明团队】红利因子的有效性研究——华泰红利指数与红利因子系列研究报告之二 人工智能 【华泰金工林晓明团队】cGAN应用于资产配置——华泰人工智能系列之四十五 【华泰金工林晓明团队】深度卷积GAN实证——华泰人工智能系列之四十四 【华泰金工林晓明团队】因子观点融入机器学习——华泰人工智能系列之四十三 【华泰金工林晓明团队】图神经网络选股与Qlib实践——华泰人工智能系列之四十二 【华泰金工林晓明团队】基于BERT的分析师研报情感因子——华泰人工智能系列之四十一 【华泰金工林晓明团队】微软AI量化投资平台Qlib体验——华泰人工智能系列之四十 【华泰金工林晓明团队】周频量价选股模型的组合优化实证——华泰人工智能系列之三十九 【华泰金工林晓明团队】WGAN生成:从单资产到多资产——华泰人工智能系列之三十八 【华泰金工林晓明团队】舆情因子和BERT情感分类模型——华泰人工智能系列之三十七 【华泰金工林晓明团队】相对生成对抗网络RGAN实证——华泰人工智能系列之三十六 【华泰金工林晓明团队】WGAN应用于金融时间序列生成——华泰人工智能系列之三十五 【华泰金工林晓明团队】再探AlphaNet:结构和特征优化——华泰人工智能系列之三十四 【华泰金工林晓明团队】数据模式探索:无监督学习案例——华泰人工智能系列之三十三 【华泰金工林晓明团队】AlphaNet:因子挖掘神经网络——华泰人工智能系列之三十二 【华泰金工林晓明团队】生成对抗网络GAN初探——华泰人工智能系列之三十一 【华泰金工林晓明团队】从关联到逻辑:因果推断初探——华泰人工智能系列之三十 【华泰金工林晓明团队】另类标签和集成学习——华泰人工智能系列之二十九 【华泰金工林晓明团队】基于量价的人工智能选股体系概览——华泰人工智能系列之二十八 【华泰金工林晓明团队】揭开机器学习模型的“黑箱” ——华泰人工智能系列之二十七 【华泰金工林晓明团队】遗传规划在CTA信号挖掘中的应用——华泰人工智能系列之二十六 【华泰金工林晓明团队】市场弱有效性检验与择时战场选择——华泰人工智能系列之二十五 【华泰金工林晓明团队】投石问路:技术分析可靠否?——华泰人工智能系列之二十四 【华泰金工林晓明团队】再探基于遗传规划的选股因子挖掘——华泰人工智能系列之二十三 【华泰金工林晓明团队】基于CSCV框架的回测过拟合概率——华泰人工智能系列之二十二 【华泰金工林晓明团队】基于遗传规划的选股因子挖掘——华泰人工智能系列之二十一 【华泰金工林晓明团队】必然中的偶然:机器学习中的随机数——华泰人工智能系列之二十 【华泰金工林晓明团队】偶然中的必然:重采样技术检验过拟合——华泰人工智能系列之十九 【华泰金工林晓明团队】机器学习选股模型的调仓频率实证——华泰人工智能系列之十八 【华泰金工林晓明团队】人工智能选股之数据标注方法实证——华泰人工智能系列之十七 【华泰金工林晓明团队】再论时序交叉验证对抗过拟合——华泰人工智能系列之十六 【华泰金工林晓明团队】人工智能选股之卷积神经网络——华泰人工智能系列之十五 【华泰金工林晓明团队】对抗过拟合:从时序交叉验证谈起 【华泰金工林晓明团队】人工智能选股之损失函数的改进——华泰人工智能系列之十三 【华泰金工林晓明团队】人工智能选股之特征选择——华泰人工智能系列之十二 【华泰金工林晓明团队】人工智能选股之Stacking集成学习——华泰人工智能系列之十一 【华泰金工林晓明团队】宏观周期指标应用于随机森林选股——华泰人工智能系列之十 【华泰金工林晓明团队】人工智能选股之循环神经网络——华泰人工智能系列之九 【华泰金工林晓明团队】人工智能选股之全连接神经网络——华泰人工智能系列之八 【华泰金工林晓明团队】人工智能选股之Python实战——华泰人工智能系列之七 【华泰金工林晓明团队】人工智能选股之Boosting模型——华泰人工智能系列之六 【华泰金工林晓明团队】人工智能选股之随机森林模型——华泰人工智能系列之五 【华泰金工林晓明团队】人工智能选股之朴素贝叶斯模型——华泰人工智能系列之四 【华泰金工林晓明团队】人工智能选股之支持向量机模型— —华泰人工智能系列之三 【华泰金工林晓明团队】人工智能选股之广义线性模型——华泰人工智能系列之二 指数增强基金分析 【华泰金工林晓明团队】再探回归法测算基金持股仓位——华泰基金仓位分析专题报告 【华泰金工林晓明团队】酌古御今:指数增强基金收益分析 【华泰金工林晓明团队】基于回归法的基金持股仓位测算 【华泰金工林晓明团队】指数增强方法汇总及实例——量化多因子指数增强策略实证 基本面选股 【华泰金工林晓明团队】华泰价值选股之相对市盈率港股模型——相对市盈率港股通模型实证研究 【华泰金工林晓明团队】华泰价值选股之FFScore模型 【华泰金工林晓明团队】相对市盈率选股模型A股市场实证研究 【华泰金工林晓明团队】华泰价值选股之现金流因子研究——现金流因子选股策略实证研究 【华泰金工林晓明团队】华泰基本面选股之低市收率模型——小费雪选股法 A 股实证研究 【华泰金工林晓明团队】华泰基本面选股之高股息率模型之奥轩尼斯选股法A股实证研究 基金定投 【华泰金工林晓明团队】大成旗下基金2018定投策略研究 【华泰金工林晓明团队】布林带与股息率择时定投模型——基金定投系列专题研究报告之四 【华泰金工林晓明团队】基金定投3—马科维茨有效性检验 【华泰金工林晓明团队】基金定投2—投资标的与时机的选择方法 【华泰金工林晓明团队】基金定投1—分析方法与理论基础 基金评价 【华泰金工林晓明团队】基金评价及筛选全流程研究框架——股票型与债券型基金多种维度定量与定性评价法 【华泰金工林晓明团队】基金选股择时能力的定量分析法——我国公募基金大多具有较强选股能力 【华泰金工林晓明团队】基金业绩持续性的规律与策略构建——采用有效影响因子筛选出持续性较好的绩优基金 ETF季度盘点 【华泰金工林晓明团队】2020Q4中国ETF市场全景回顾——总规模创新高,行业主题类ETF渐成市场新主角20210112 【华泰金工林晓明团队】2020年三季度中国ETF市场回顾——产品百花齐放、投资者结构日渐成熟,规模创新高20201021 【华泰金工林晓明团队】ETF产品细分差异化或成突围之道——2020二季度中国ETF市场全景回顾盘点与展望20200803 【华泰金工林晓明团队】ETF规模数量大涨品类不断丰富——2020一季度中国ETF市场全景回顾盘点 其它 【华泰金工林晓明团队】A股市场及行业的农历月份效应——月份效应之二 A股市场及行业的月份效应——详解历史数据中的隐藏法则
林晓明 S0570516010001 研究员 SFC No. BPY421 李子钰 S0570519110003 研究员 何 康 S0570520080004 SFC No. BRB318 研究员 王晨宇 S0570119110038 联系人 报告发布时间:2021年7月4日 摘要 本文提出AlphaNet的三个改进方向,均取得理想的改进效果 在华泰金工前期报告《AlphaNet:因子挖掘神经网络》(2020.6.14)和《再探AlphaNet:结构和特征优化》(2020.8.24)中,我们构建了端到端的因子挖掘和因子合成模型AlphaNet,深度学习的灵活性使得其具有很大的改进和定制空间。本文对市场规律和模型特点进行深入思考,提出了AlphaNet的三个改进方向:(1) 特征提取层自定义Dropout机制;(2)损失函数加入中性化机制;(3)损失函数中提高多头样本权重。我们以前期报告中的AlphaNet-v2模型作为基线模型,对三个改进方向进行了测试,在测试中均取得了理想的改进效果。 特征提取层自定义Dropout机制:控制过拟合,提升模型训练速度 Dropout是神经网络中常用的控制过拟合技巧。本文借鉴Dropout的思想,针对AlphaNet的特征提取层实现了自定义Dropout机制:对二元运算函数(ts_corr,ts_cov等)进行抽样遍历,该机制可从以下三点改善模型:(1) 节约二元运算函数的计算开销,提升训练速度。此外由于计算开销的下降,更多原始特征可以输入模型,有可能提升模型的预测能力。(2)抽样遍历得到的特征之间相关性下降,有利于控制过拟合。(3) 可降低不同随机数种子下训练模型的相关性,有利于模型集成。测试中,加入自定义Dropout机制的AlphaNet在收益方面的表现有小幅提升,同时训练耗时明显减少。 损失函数加入中性化机制:剔除风格,挖掘更纯粹的Alpha因子 为了挖掘具有增量信息的因子,本文将因子中性化机制加入到AlphaNet的损失函数中,新的损失函数可引导模型挖掘与Barra风格因子相关性较低的因子,降低风格暴露,使得模型的预测结果具有更纯粹的Alpha属性。测试中,AlphaNet的损失函数加入中性化机制后,模型的超额收益虽然下降但是稳定性大幅提升,对回撤和波动的控制都显著改善,模型在2014年底、2019年初、2020年初的超额收益回撤都明显减小。值得注意的是,损失函数的中性化机制不仅适用于AlphaNet,也适用于任何神经网络选股模型,是一个通用的方法。 损失函数中提高多头样本权重:挖掘具有显著多头收益的因子 由于A股做空手段有限,在A股进行因子投资一个常见问题是如何挖掘具有显著多头收益的因子。针对AlphaNet,可通过提高多头样本权重来引导模型挖掘具有显著多头收益的因子。测试中,提高多头样本权重的AlphaNet在分层测试中TOP组合收益率、TOP组合信息比率更高,构建中证500指数增强组合的年化超额收益率、信息比率更高。该方法是一种简单而行之有效的方法,无需从底层代码对网络进行修改,其他神经网络选股模型也可进行尝试。 风险提示:本报告对历史数据进行梳理总结,历史结果不能简单预测未来,规律存在失效风险,投资需谨慎。基金过往业绩并不预示其未来表现,基金管理人管理的其它基金业绩并不构成对基金未来业绩表现的保证。 本文研究导读 在华泰金工前期报告《AlphaNet:因子挖掘神经网络》(2020.6.14)和《再探AlphaNet:结构和特征优化》(2020.8.24)中,我们构建了端到端的因子挖掘和因子合成模型AlphaNet,并开发了多个版本的模型。 深度学习的灵活性使得其具有很大的改进和定制空间。过去一年时间里,我们对市场规律和模型特点进行了深入思考,提出了AlphaNet的三个改进方向并测试其有效性。 AlphaNet的三个改进方向 特征提取层自定义Dropout机制 Dropout是神经网络中常用的控制过拟合技巧。2012年,Alex Krizhevsky、Geoffrey E. Hinton在其论文“ImageNet Classification with Deep Convolutional Neural Networks”中最早使用了Dropout用于防止过拟合;该论文构建的AlexNet网络在当时取得了最佳的图像分类效果,此后Dropout被广泛用于神经网络中。下图右侧展示了Dropout的原理,在神经网络的前向传播中,使得每个神经元以一定概率p不输出激活值,从而减少网络中的连接。本文参照Dropout的原理,为AlphaNet的特征提取层设计了自定义Dropout机制。 加入自定义Dropout机制后,需要确定抽样特征数量n的取值,n取值太小会使得抽样得到的特征太少,影响模型表现,n取值太大则会降低自定义Dropout机制的效果。由于我们会训练10个模型然后集成,本文的原则是在训练出的10个模型中,尽量遍历完所有的两两特征组合;在该原则下,为了获得n的最优取值,我们进行模拟特征抽样测试,考察不同n的取值下能够覆盖的两两特征组合比例。我们设定模拟次数为1000次,原始特征数量为15个,设n=[6,7,8,9,10,11],下图展示了在不同n的取值下,10个模型中能够覆盖的两两特征组合比例。 特征提取层自定义Dropout机制能带来以下三点优势: 1.节约二元运算函数(ts_corr,ts_cov等)的计算开销,提升模型训练速度。另外由于计算开销的下降,更多原始特征可以输入模型,有可能提升模型的预测能力。 2.Dropout最主要的功能就是控制过拟合。相比完全遍历,自定义Dropout机制的抽样遍历得到的特征之间相关性下降,有利于控制过拟合。 3.在AlphaNet的训练中我们使用不同的随机数种子训练多个模型后集成。自定义Dropout机制可以降低不同随机数种子下训练模型的相关性,更有利于模型集成。 最后,读者可能会有一个疑问:为什么不直接在特征提取层后加Dropout层而是实现自定义Dropout机制?本文的回答如下: 1.直接在特征提取层后加Dropout层并不能降低计算开销,二元运算函数仍需对全部特征进行两两遍历。 2.相比使用Keras的Dropout API,自定义Dropout机制更能保证我们对模型的可控性。 损失函数改进:加入中性化机制 多因子选股框架中,一直以来一个备受关注的问题是如何挖掘相对于现有因子具有增量信息的因子,因子中性化是研究该问题的主要方法。针对该问题,我们将因子中性化机制加入到AlphaNet的损失函数中。 加入中性化机制的损失函数可以引导AlphaNet挖掘与Barra风格因子相关性较低的因子,降低风格暴露,使得AlphaNet的预测结果具有更纯粹的Alpha属性。本文所使用的Barra风格因子可参见附录。 损失函数改进:提高多头样本权重 由于A股做空手段有限,空头收益较难获取,在A股进行因子投资一个常见问题是如何挖掘具有显著多头收益的因子。在AlphaNet中,可以通过提高多头样本权重来引导模型挖掘具有显著多头收益的因子。 针对AlphaNet,我们可以提升训练集样本中多头样本的权重来引导模型挖掘具有显著多头收益的因子。 测试流程 基线模型和改进模型说明 我们以前期报告《再探AlphaNet:结构和特征优化》(2020.08.24)中的AlphaNet-v2为本文的基线模型(baseline model)。本文介绍的三种改进方式都在AlphaNet-v2上进行,并与AlphaNet-v2进行测试对比。AlphaNet-v2的结构如下图所示。 三个改进模型的说明如下: 数据准备 1.股票池:全A股。剔除ST、PT股票,剔除每个截面期下一交易日涨跌停和停牌的股票。 2.原始特征:个股日频量价信息,如图表8所示。对于每只股票,将其量价数据拼接成15*30的“数据图片”,30为历史时间天数。 3.预测目标:个股10天后标准化的收益率。 4.回测区间:2011年1月31日至2021年6月30日。 5.样本内数据大小:每次训练都使用过去1500个交易日的数据作为样本内数据,每隔两天采样一次。 6.训练集和验证集比例:按照时间先后进行4:1划分,训练集在前,验证集在后。 模型训练和预测方式 1.模型训练:从2011年1月31日开始,每隔半年进行滚动训练。样本内数据为过去1500个交易日的数据,训练集和验证集按照4:1划分。 2.模型预测:在每个样本外数据截面上,使用最新训练的模型预测。 考虑到神经网络的训练受随机数种子影响较大,我们会训练10个模型,并将10个模型的预测结果做等权平均,取该平均值为AlphaNet的合成因子。 模型测试方式 对于三个改进模型合成的因子,在全A股内测试,并与基线模型AlphaNet-v2进行对比。 1.单因子IC 测试和分层测试。分析因子的RankIC均值、ICIR、分层组合年化收益率等指标。 2.构建行业市值中性的中证500增强策略进行回测。分析策略的年化超额收益率、信息比率、超额收益最大回撤等指标。 特征提取层自定义Dropout机制的测试结果 本章我们对比以下两个模型的测试结果: AlphaNet-v2:结构参见图表6。 AlphaNet-v2.1:加入特征提取层自定义Dropout机制的AlphaNet-v2模型,抽样特征数量n=8。 单因子IC测试的方法如下: 样本空间:全A股。剔除ST、PT股票,剔除每个截面期下一交易日涨跌停和停牌的股票。 回测区间:2011年1月31日到2021年6月30日。 截面期:每隔10个交易日,用当前截面期因子值与当前截面期至下个截面期内的个股收益计算RankIC 值。 因子进行行业市值中性。 单因子分层测试的方法如下: 股票池、回测区间、截面期均与IC测试一致。 换仓:在每个截面期得到预测值,构建分层组合,在截面期下一个交易日按当日vwap换仓,交易费用为单边千分之二。 分层方法:先将因子暴露度向量进行一定预处理,将股票池内所有个股按处理后的因子值从大到小进行排序,等分N层,每层内部的个股等权重配置。当个股总数目无法被N整除时采用任一种近似方法处理均可,实际上对分层组合的回测结果影响很小。分层测试中的基准组合为股票池内所有股票的等权组合。 多空组合收益计算方法:用Top组每天的收益减去Bottom组每天的收益,得到每日多空收益序列r_1,r_2,cdots,r_n,则多空组合在第n天的净值等于(1+r_1)(1+r_2)cdots(1+r_n)。 因子进行行业市值中性。 构建行业市值中性的指数增强策略回测的方法如下: 股票池、回测区间、与IC测试一致。 换仓:周频调仓。在每个截面期得到预测值,通过组合优化模型得到新的持仓股票和权重,在截面期下一个交易日按当日vwap换仓,交易费用为单边千分之二,每次调仓双边换手率限制在30%。 单因子IC测试 下方两图为AlphaNet-v2.1和AlphaNet-v2的IC测试结果。相比AlphaNet-v2,AlphaNet-v2.1的RankIC均值略高,IC_IR略低,二者总体表现接近。 单因子分层测试 下方图表为AlphaNet-v2.1和AlphaNet-v2的分层测试结果。相比AlphaNet-v2,AlphaNet-v2.1的TOP组合收益率略高,但TOP组合信息比率和胜率略低,二者总体表现接近。 图表11:AlphaNet-v2.1和AlphaNet-v2合成因子分层测试结果(回测期20110131~20210630) 构建行业市值中性的中证500增强策略进行回测 下方图表为使用AlphaNet-v2.1和AlphaNet-v2构建中证500增强组合的测试结果。相比AlphaNet-v2,AlphaNet-v2.1的年化超额收益率、信息比率、Calmar比率更高。 小结 加入特征提取层自定义Dropout机制后,AlphaNet在收益方面的表现有小幅提升,同时训练耗时明显减少,有助于在今后的研究中加入更多特征。 损失函数改进:加入中性化机制的测试结果 本章我们对比以下两个模型的测试结果: 1.AlphaNet-v2:结构参见图表6。 2.AlphaNet-v2.2:在AlphaNet-v2模型基础上,对损失函数加入中性化机制,中性化因子为Barra十大风格因子。 单因子IC测试 下方两图为AlphaNet-v2.2和AlphaNet-v2的IC测试结果。相比AlphaNet-v2,AlphaNet-v2.2的RankIC均值较低,这是因为AlphaNet-v2.2已剔除了Barra十大风格因子的信息,更能反映模型挖掘出的增量Alpha,同时也规避了风格因子所带来的波动,IC_IR较高。 单因子分层测试 下方图表为AlphaNet-v2.2和AlphaNet-v2的分层测试结果。相比AlphaNet-v2,AlphaNet-v2.2的TOP组合收益率较低,但TOP组合信息比率更高。 构建行业市值中性的中证500增强策略进行回测 下方图表为使用AlphaNet-v2.2和AlphaNet-v2构建中证500增强组合的测试结果。相比AlphaNet-v2,AlphaNet-v2.2的年化超额收益率较低,但超额收益最大回撤和Calmar比率显著改善,2014年底、2019年初、2020年初的超额收益回撤都明显减小。 小结 损失函数加入中性化机制的AlphaNet能够挖掘更纯粹的alpha,模型的超额收益虽然下降但是稳定性大幅提升,对回撤和波动的控制都显著改善。值得注意的是,损失函数的中性化机制不仅适用于AlphaNet,也适用于任何神经网络选股模型,是一个通用的方法。 损失函数改进:提高多头样本权重的测试结果 本章我们对比以下两个模型的测试结果: 1.AlphaNet-v2:结构参见图表6。 2.AlphaNet-v2.3:在AlphaNet-v2模型基础上,对每个截面中收益率排名前50%的样本设置权重为2,排名后50%的样本设置权重为1。 单因子IC测试 下方两图为AlphaNet-v2.3和AlphaNet-v2的IC测试结果。相比AlphaNet-v2,AlphaNet-v2.3的RankIC均值略高,IC_IR略低。 单因子分层测试 下方图表为AlphaNet-v2.3和AlphaNet-v2的分层测试结果。相比AlphaNet-v2,AlphaNet-v2.3的TOP组合收益率、TOP组合信息比率更高,提高多头样本权重的损失函数表现出了应有的作用。 构建行业市值中性的中证500增强策略进行回测 下方图表为使用AlphaNet-v2.3和AlphaNet-v2构建中证500增强组合的测试结果。相比AlphaNet-v2,AlphaNet-v2.3的年化超额收益率、信息比率更高。 小结 损失函数中提高多头样本权重的方法是一种简单而行之有效的方法,无需从底层代码对网络进行修改,其他神经网络选股模型也可进行尝试。 总结 本文提出了AlphaNet的三个改进方向:(1) 特征提取层自定义Dropout机制;(2)损失函数加入中性化机制;(3)损失函数中提高多头样本权重。我们以前期报告中的AlphaNet-v2模型作为基线模型,对三个改进方向进行了测试,在测试中均取得了理想的改进效果。 特征提取层自定义Dropout机制:控制过拟合,提升模型训练速度。Dropout是神经网络中常用的控制过拟合技巧。本文借鉴Dropout的思想,针对AlphaNet的特征提取层实现了自定义Dropout机制:对二元运算函数(ts_corr,ts_cov等)进行抽样遍历,该机制可从以下三点改善模型:(1) 节约二元运算函数的计算开销,提升训练速度。此外由于计算开销的下降,更多原始特征可以输入模型,有可能提升模型的预测能力。(2)抽样遍历得到的特征之间相关性下降,有利于控制过拟合。(3) 可降低不同随机数种子下训练模型的相关性,有利于模型集成。测试中,加入自定义Dropout机制的AlphaNet在收益方面的表现有小幅提升,同时训练耗时明显减少。 损失函数加入中性化机制:剔除风格,挖掘更纯粹的Alpha因子。为了挖掘相对于现有因子具有增量信息的因子,本文将因子中性化机制加入到AlphaNet的损失函数中,新的损失函数可引导模型挖掘与Barra风格因子相关性较低的因子,降低风格暴露,使得模型的预测结果具有更纯粹的Alpha属性。测试中,AlphaNet的损失函数加入中性化机制后,模型的超额收益虽然下降但是稳定性大幅提升,对回撤和波动的控制都显著改善,模型在2014年底、2019年初、2020年初的超额收益回撤都明显减小。值得注意的是,损失函数的中性化机制不仅适用于AlphaNet,也适用于任何神经网络选股模型,是一个通用的方法。 损失函数中提高多头样本权重:挖掘具有显著多头收益的因子。由于A股做空手段有限,在A股进行因子投资一个常见问题是如何挖掘具有显著多头收益的因子。在AlphaNet中,可通过提高多头样本权重来引导模型挖掘具有显著多头收益的因子。测试中,提高多头样本权重的AlphaNet在分层测试中TOP组合收益率、TOP组合信息比率更高,构建中证500指数增强组合的年化超额收益率、信息比率更高。该方法是一种简单而行之有效的方法,无需从底层代码对网络进行修改,其他神经网络选股模型也可进行尝试。 风险提示 通过人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。神经网络受随机性影响较大,可解释性较低,使用需谨慎。 附录:Barra风险因子模型 本文使用的Barra USE4模型包含十个风格因子,其具体定义如下: 免责声明 公众号平台免责声明 本公众平台不是华泰证券研究所官方订阅平台。相关观点或信息请以华泰证券官方公众平台为准。根据《证券期货投资者适当性管理办法》的相关要求,本公众号内容仅面向华泰证券客户中的专业投资者,请勿对本公众号内容进行任何形式的转发。若您并非华泰证券客户中的专业投资者,请取消关注本公众号,不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限,若给您造成不便,烦请谅解!本公众号旨在沟通研究信息,交流研究经验,华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号研究报告有关内容摘编自已经发布的研究报告的,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。如需了解详细内容,请具体参见华泰证券所发布的完整版报告。 本公众号内容基于作者认为可靠的、已公开的信息编制,但作者对该等信息的准确性及完整性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对客户私人投资建议。订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。普通投资者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券股份有限公司所有,未经公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。 华泰金工深度报告一览 金融周期系列研究(资产配置) 【华泰金工林晓明团队】2020年中国市场量化资产配置年度观点——周期归来、机会重生,顾短也兼长20200121 【华泰金工林晓明团队】量化资产配置2020年度观点——小周期争明日,大周期赢未来20200116 【华泰金工林晓明团队】风险预算模型如何度量风险更有效-改进风险度量方式稳定提升风险模型表现的方法 【华泰金工林晓明团队】周期双底存不确定性宜防守待趋势——短周期底部拐头机会渐增,待趋势明朗把握或更大20191022 【华泰金工林晓明团队】二十年一轮回的黄金投资大周期——黄金的三周期定价逻辑与组合配置、投资机会分析20190826 【华泰金工林晓明团队】如何有效判断真正的周期拐点?——定量测度实际周期长度提升市场拐点判准概率 【华泰金工林晓明团队】基钦周期的长度会缩短吗?——20190506 【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(下) 【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(上) 【华泰金工林晓明团队】周期轮动下的BL资产配置策略 【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究 【华泰金工林晓明团队】市场拐点的判断方法 【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告(上) 【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(四)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(三)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(二)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(一)——华泰金工周期系列研究 【华泰金工林晓明团队】华泰金工周期研究系列 · 基于DDM模型的板块轮动探索 【华泰金工林晓明团队】市场周期的量化分解 【华泰金工林晓明团队】周期研究对大类资产的预测观点 【华泰金工林晓明团队】金融经济系统周期的确定(下)——华泰金工周期系列研究 【华泰金工林晓明团队】金融经济系统周期的确定(上)——华泰金工周期系列研究 【华泰金工林晓明团队】全球多市场择时配置初探——华泰周期择时研究系列 行业指数频谱分析及配置模型:市场的周期分析系列之三 【华泰金工林晓明团队】市场的频率——市场轮回,周期重生 【华泰金工林晓明团队】市场的轮回——金融市场周期与经济周期关系初探 周期起源 【华泰金工林晓明团队】金融经济周期的耗散结构观——华泰周期起源系列研究之十 【华泰金工林晓明团队】经济系统中有序市场结构的进化——华泰周期起源系列研究报告之九 【华泰金工林晓明团队】企业间力的产生、传播和作用效果——华泰周期起源系列研究之八 【华泰金工林晓明团队】耦合振子同步的藏本模型——华泰周期起源系列研究之七 【华泰金工林晓明团队】周期在供应链管理模型的实证——华泰周期起源系列研究之六 【华泰金工林晓明团队】不确定性与缓冲机制——华泰周期起源系列研究报告之五 【华泰金工林晓明团队】周期是矛盾双方稳定共存的结果——华泰周期起源系列研究之四 【华泰金工林晓明团队】周期是不确定性条件下的稳态——华泰周期起源系列研究之三 【华泰金工林晓明团队】周期趋同现象的动力学系统模型——华泰周期起源系列研究之二 【华泰金工林晓明团队】从微观同步到宏观周期——华泰周期起源系列研究报告之一 FOF与金融创新产品 【华泰金工林晓明团队】养老目标基金的中国市场开发流程--目标日期基金与目标风险基金产品设计研究 【华泰金工】生命周期基金Glide Path开发实例——华泰FOF与金融创新产品系列研究报告之一 因子周期(因子择时) 【华泰金工林晓明团队】市值因子收益与经济结构的关系——华泰因子周期研究系列之三 【华泰金工林晓明团队】周期视角下的因子投资时钟--华泰因子周期研究系列之二 【华泰金工林晓明团队】因子收益率的周期性研究初探 择时 【华泰金工林晓明团队】波动率与换手率构造牛熊指标——华泰金工量化择时系列 【华泰金工林晓明团队】A股市场低开现象研究 【华泰金工林晓明团队】华泰风险收益一致性择时模型 【华泰金工林晓明团队】技术指标与周期量价择时模型的结合 【华泰金工林晓明团队】华泰价量择时模型——市场周期在择时领域的应用 中观基本面轮动 【华泰金工林晓明团队】行业配置落地:指数增强篇——华泰中观基本面轮动系列之十 【华泰金工林晓明团队】行业配置策略:拥挤度视角——华泰中观基本面轮动系列之九 【华泰金工林晓明团队】行业配置策略:景气度视角——华泰中观基本面轮动系列之八 【华泰金工林晓明团队】行业配置策略:趋势追踪视角——华泰中观基本面轮动系列之七 【华泰金工林晓明团队】行业配置策略:宏观因子视角——华泰中观基本面轮动系列之六 【华泰金工林晓明团队】行业全景画像:投入产出表视角——华泰中观基本面轮动系列之五 【华泰金工林晓明团队】行业全景画像:改进杜邦拆解视角——华泰中观基本面轮动系列之四 【华泰金工林晓明团队】行业全景画像:风格因子视角 ——华泰中观基本面轮动系列之三 【华泰金工林晓明团队】行业全景画像:宏观因子视角 ——华泰中观基本面轮动系列之二 【华泰金工林晓明团队】确立研究对象:行业拆分与聚类——华泰中观基本面轮动系列之一 行业轮动 【华泰金工林晓明团队】不同协方差估计方法对比分析(二)——华泰行业轮动系列报告之十三 【华泰金工林晓明团队】拥挤度指标在行业配置中的应用——华泰行业轮动系列报告之十二 【华泰金工林晓明团队】基于投入产出表的产业链分析 ——华泰行业轮动系列报告之十一 【华泰金工林晓明团队】不同协方差估计方法对比分析——华泰行业轮动系列报告之十 【华泰金工林晓明团队】景气度指标在行业配置中的应用——华泰行业轮动系列报告之九 【华泰金工林晓明团队】再探周期视角下的资产轮动——华泰行业轮动系列报告之八 【华泰金工林晓明团队】“华泰周期轮动”基金组合改进版——华泰行业轮动系列报告之七 【华泰金工林晓明团队】“华泰周期轮动”基金组合构建——华泰行业轮动系列之六 【华泰金工林晓明团队】估值因子在行业配置中的应用——华泰行业轮动系列报告之五 【华泰金工林晓明团队】动量增强因子在行业配置中的应用——华泰行业轮动系列报告之四 【华泰金工林晓明团队】财务质量因子在行业配置中的应用——华泰行业轮动系列报告之三 【华泰金工林晓明团队】周期视角下的行业轮动实证分析——华泰行业轮动系列之二 【华泰金工林晓明团队】基于通用回归模型的行业轮动策略——华泰行业轮动系列之一 Smartbeta 【华泰金工林晓明团队】重剑无锋:低波动 Smart Beta——华泰 Smart Beta 系列之四 【华泰金工林晓明团队】投资优质股票:红利类Smart Beta——华泰Smart Beta系列之三 【华泰金工林晓明团队】博观约取:价值和成长Smart Beta——华泰Smart Beta系列之二 【华泰金工林晓明团队】Smart Beta:乘风破浪趁此时——华泰Smart Beta系列之一 【华泰金工林晓明团队】Smartbeta在资产配置中的优势——华泰金工Smartbeta专题研究之一 多因子选股 【华泰金工林晓明团队】华泰单因子测试之历史分位数因子——华泰多因子系列之十三 【华泰金工林晓明团队】桑土之防:结构化多因子风险模型——华泰多因子系列之十二 【华泰金工林晓明团队】华泰单因子测试之海量技术因子——华泰多因子系列之十一 【华泰金工林晓明团队】因子合成方法实证分析 ——华泰多因子系列之十 【华泰金工林晓明团队】华泰单因子测试之一致预期因子 ——华泰多因子系列之九 【华泰金工林晓明团队】华泰单因子测试之财务质量因子——华泰多因子系列之八 【华泰金工林晓明团队】华泰单因子测试之资金流向因子——华泰多因子系列之七 【华泰金工林晓明团队】华泰单因子测试之波动率类因子——华泰多因子系列之六 【华泰金工林晓明团队】华泰单因子测试之换手率类因子——华泰多因子系列之五 【华泰金工林晓明团队】华泰单因子测试之动量类因子——华泰多因子系列之四 【华泰金工林晓明团队】华泰单因子测试之成长类因子——华泰多因子系列之三 【华泰金工林晓明团队】华泰单因子测试之估值类因子——华泰多因子系列之二 【华泰金工林晓明团队】华泰多因子模型体系初探——华泰多因子系列之一 【华泰金工林晓明团队】五因子模型A股实证研究 【华泰金工林晓明团队】红利因子的有效性研究——华泰红利指数与红利因子系列研究报告之二 人工智能 【华泰金工林晓明团队】cGAN应用于资产配置——华泰人工智能系列之四十五 【华泰金工林晓明团队】深度卷积GAN实证——华泰人工智能系列之四十四 【华泰金工林晓明团队】因子观点融入机器学习——华泰人工智能系列之四十三 【华泰金工林晓明团队】图神经网络选股与Qlib实践——华泰人工智能系列之四十二 【华泰金工林晓明团队】基于BERT的分析师研报情感因子——华泰人工智能系列之四十一 【华泰金工林晓明团队】微软AI量化投资平台Qlib体验——华泰人工智能系列之四十 【华泰金工林晓明团队】周频量价选股模型的组合优化实证——华泰人工智能系列之三十九 【华泰金工林晓明团队】WGAN生成:从单资产到多资产——华泰人工智能系列之三十八 【华泰金工林晓明团队】舆情因子和BERT情感分类模型——华泰人工智能系列之三十七 【华泰金工林晓明团队】相对生成对抗网络RGAN实证——华泰人工智能系列之三十六 【华泰金工林晓明团队】WGAN应用于金融时间序列生成——华泰人工智能系列之三十五 【华泰金工林晓明团队】再探AlphaNet:结构和特征优化——华泰人工智能系列之三十四 【华泰金工林晓明团队】数据模式探索:无监督学习案例——华泰人工智能系列之三十三 【华泰金工林晓明团队】AlphaNet:因子挖掘神经网络——华泰人工智能系列之三十二 【华泰金工林晓明团队】生成对抗网络GAN初探——华泰人工智能系列之三十一 【华泰金工林晓明团队】从关联到逻辑:因果推断初探——华泰人工智能系列之三十 【华泰金工林晓明团队】另类标签和集成学习——华泰人工智能系列之二十九 【华泰金工林晓明团队】基于量价的人工智能选股体系概览——华泰人工智能系列之二十八 【华泰金工林晓明团队】揭开机器学习模型的“黑箱” ——华泰人工智能系列之二十七 【华泰金工林晓明团队】遗传规划在CTA信号挖掘中的应用——华泰人工智能系列之二十六 【华泰金工林晓明团队】市场弱有效性检验与择时战场选择——华泰人工智能系列之二十五 【华泰金工林晓明团队】投石问路:技术分析可靠否?——华泰人工智能系列之二十四 【华泰金工林晓明团队】再探基于遗传规划的选股因子挖掘——华泰人工智能系列之二十三 【华泰金工林晓明团队】基于CSCV框架的回测过拟合概率——华泰人工智能系列之二十二 【华泰金工林晓明团队】基于遗传规划的选股因子挖掘——华泰人工智能系列之二十一 【华泰金工林晓明团队】必然中的偶然:机器学习中的随机数——华泰人工智能系列之二十 【华泰金工林晓明团队】偶然中的必然:重采样技术检验过拟合——华泰人工智能系列之十九 【华泰金工林晓明团队】机器学习选股模型的调仓频率实证——华泰人工智能系列之十八 【华泰金工林晓明团队】人工智能选股之数据标注方法实证——华泰人工智能系列之十七 【华泰金工林晓明团队】再论时序交叉验证对抗过拟合——华泰人工智能系列之十六 【华泰金工林晓明团队】人工智能选股之卷积神经网络——华泰人工智能系列之十五 【华泰金工林晓明团队】对抗过拟合:从时序交叉验证谈起 【华泰金工林晓明团队】人工智能选股之损失函数的改进——华泰人工智能系列之十三 【华泰金工林晓明团队】人工智能选股之特征选择——华泰人工智能系列之十二 【华泰金工林晓明团队】人工智能选股之Stacking集成学习——华泰人工智能系列之十一 【华泰金工林晓明团队】宏观周期指标应用于随机森林选股——华泰人工智能系列之十 【华泰金工林晓明团队】人工智能选股之循环神经网络——华泰人工智能系列之九 【华泰金工林晓明团队】人工智能选股之全连接神经网络——华泰人工智能系列之八 【华泰金工林晓明团队】人工智能选股之Python实战——华泰人工智能系列之七 【华泰金工林晓明团队】人工智能选股之Boosting模型——华泰人工智能系列之六 【华泰金工林晓明团队】人工智能选股之随机森林模型——华泰人工智能系列之五 【华泰金工林晓明团队】人工智能选股之朴素贝叶斯模型——华泰人工智能系列之四 【华泰金工林晓明团队】人工智能选股之支持向量机模型— —华泰人工智能系列之三 【华泰金工林晓明团队】人工智能选股之广义线性模型——华泰人工智能系列之二 指数增强基金分析 【华泰金工林晓明团队】再探回归法测算基金持股仓位——华泰基金仓位分析专题报告 【华泰金工林晓明团队】酌古御今:指数增强基金收益分析 【华泰金工林晓明团队】基于回归法的基金持股仓位测算 【华泰金工林晓明团队】指数增强方法汇总及实例——量化多因子指数增强策略实证 基本面选股 【华泰金工林晓明团队】华泰价值选股之相对市盈率港股模型——相对市盈率港股通模型实证研究 【华泰金工林晓明团队】华泰价值选股之FFScore模型 【华泰金工林晓明团队】相对市盈率选股模型A股市场实证研究 【华泰金工林晓明团队】华泰价值选股之现金流因子研究——现金流因子选股策略实证研究 【华泰金工林晓明团队】华泰基本面选股之低市收率模型——小费雪选股法 A 股实证研究 【华泰金工林晓明团队】华泰基本面选股之高股息率模型之奥轩尼斯选股法A股实证研究 基金定投 【华泰金工林晓明团队】大成旗下基金2018定投策略研究 【华泰金工林晓明团队】布林带与股息率择时定投模型——基金定投系列专题研究报告之四 【华泰金工林晓明团队】基金定投3—马科维茨有效性检验 【华泰金工林晓明团队】基金定投2—投资标的与时机的选择方法 【华泰金工林晓明团队】基金定投1—分析方法与理论基础 基金评价 【华泰金工林晓明团队】基金评价及筛选全流程研究框架——股票型与债券型基金多种维度定量与定性评价法 【华泰金工林晓明团队】基金选股择时能力的定量分析法——我国公募基金大多具有较强选股能力 【华泰金工林晓明团队】基金业绩持续性的规律与策略构建——采用有效影响因子筛选出持续性较好的绩优基金 ETF季度盘点 【华泰金工林晓明团队】2020Q4中国ETF市场全景回顾——总规模创新高,行业主题类ETF渐成市场新主角20210112 【华泰金工林晓明团队】2020年三季度中国ETF市场回顾——产品百花齐放、投资者结构日渐成熟,规模创新高20201021 【华泰金工林晓明团队】ETF产品细分差异化或成突围之道——2020二季度中国ETF市场全景回顾盘点与展望20200803 【华泰金工林晓明团队】ETF规模数量大涨品类不断丰富——2020一季度中国ETF市场全景回顾盘点 其它 【华泰金工林晓明团队】A股市场及行业的农历月份效应——月份效应之二 A股市场及行业的月份效应——详解历史数据中的隐藏法则
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。