首页 > 公众号研报 > 【招商定量·深度报告巡礼之三】多模型集成量价Alpha策略

【招商定量·深度报告巡礼之三】多模型集成量价Alpha策略

作者:微信公众号【招商定量任瞳团队】/ 发布时间:2024-08-29 / 悟空智库整理
(以下内容从招商证券《【招商定量·深度报告巡礼之三】多模型集成量价Alpha策略》研报附件原文摘录)
  随着各家机构量化因子库的不断完善,人工因子的挖掘逐渐遇到瓶颈。此外因子拥挤度提升和策略同质化的现象导致传统因子多头收益率的降低。基于机器学习的非线性模型用于因子挖掘的算法逐渐受到重视。本文将基于量价数据和不同的模型探讨机器学习生成Alpha因子的表现。 本文基于截面模型MLP、GBDT和时序模型GRU构建因子生成模型。在引入截面特征序列后截面模型与时序模型的因子学习能力基本处于同一水平。 引入Attention机制后GRU生成的因子表现没有明显提高。可能是由于模型复杂度的提升,需要更多的样本数据和训练轮数来学习量价特征。 基于GBDT的截面模型因子,在全A成分股内,RankIC为10.66%,ICIR为1.14(未年化),分20组的多头对冲年化收益率为29.84%;基于GRU的时序模型因子在全A成分股中,RankIC为11.3%,ICIR达到1.06(未年化),分20组的多头对冲年化收益率为28.83% 模型集成后的得到得集成因子相比于单个模型得到的因子表现提升较为明显。集成因子与常见因子的相关性整体较低。集成因子相比于单个模型的因子RankIC提升到11.9%,ICIR达到1.13(未年化),多头收益率提高到33.11%。 基于集成因子构建的TOP100策略的绝对收益表现良好,除2018年外,在单边换手率约束为40%以上时,绝对年化收益率显著为正。 集成学习模型因子与常见风格因子整体相关性较低,在流动性和残差波动率风格上有一定的暴露。风格中性化后集成因子的多头收益率有所下降,但Alpha选股仍然显著。 沪深300周频指增策略年化超额收益率为13.00%,信息比率为4.13,年化跟踪误差为3.15% 中证500周频指增策略年化超额收益率为14.14%,信息比率为2.26,年化跟踪误差为6.23%; 中证1000周频指增策略年化超额收益率为20.13%,信息比率为3.07,跟踪误差为6.55% *风险提示:量化策略基于历史数据统计,模型存在失效的可能性。 I 时序神经网络与其他截面学习模型 1.1. 多层感知机MLP 多层感知机MLP是最常用的神经网络组件之一。通常作为复杂神经网络的特征整合层。例如卷积神经网络CNN及其衍生模型,MLP通常出现在这些网络的输出端以整合隐含层学习到的特征。MLP的结构较为简单,通常由多层全连接层和激活函数构成。模型的复杂度由隐含层层数和隐藏层神经元个数决定。 一个2层MLP的数学模型可以表示为: 其中X为输入样本数据矩阵,W为权重矩阵,b为偏置向量。H为隐藏层输出,O为输出向量,sigma为激活函数,通常为ReLU、Sigmoid等非线性函数。 隐藏层与模型的拟合能力的简单经验关系: 1)当隐藏层为0时,神经网络只能表示线性可分的函数 2)当隐藏层为2时,可以表示任何一个有限空间到另一个有限空间的连续映射 3)当隐藏层大于3时,额外的隐藏层可以学习复杂的特征描述(自动特征工程) 隐藏层神经元个数的经验设计公式: 其中Ns为样本个数,Ni为输入神经元个数即特征维度,No为输出层神经元个数, alpha为2至10的固定常数。隐藏层层数和隐藏层神经元个数的选择通常是经验性的,在训练集训练模型的过程中,固定迭代次数,随着隐藏层数和隐藏层神经元个数增加,训练集Loss无法显著下降,则停止增加模型复杂度。 在确定隐藏层层数和隐藏层神经元个数后,模型的表达能力基本确定。为加快模型的收敛速度,通常会在激活函数之前加入Batch Normal层来防止隐藏层输入的方差变化过大导致收敛困难。在前期报告中,我们利用MLP和常见基本面因子和量价因子构建了非线性Alpha模型相比于线性基准Alpha模型有显著的表现提升。证明了在Alpha模型中引入非线性确实有助于提升盈利模型的表现。 1.2. 梯度提升树GBDT 梯度提升树在业务场景中也是非常重要的一类机器学习模型。一直以来,在各类数据分析大赛的高分方案中基本都能看到基于GBDT的模型的身影。相比于多层感知机MLP这类神经网络,梯度提升树GBDT的优点主要有: 1)对样本特征维度的数量级不敏感 2)更适合处理表格类型的数据 3)模型的可解释性显著更高 4)相同硬件资源下训练速度显著更快 因此在各类处理表格数据类型的数据分析场景中,梯度提升树总能获得不错的表现。 GBDT结合了Gradient Boosting算法和树模型,训练过程和决策过程与神经网络存在明显的区别。其训练迭代过程可以表述为: 其中T为第m个弱分类器,通常为CART决策树,在第m次迭代的过程中,通过经验风险最小化获得对决策树theta的参数估计 。在上述通用的Boosting框架下,Gradient Boosting每次迭代拟合的目标为样本相对于原始目标的负梯度: 梯度提升(Gradient Boosting)和梯度下降(Gradient Descent)有异曲同工之妙,前者在参数空间W迭代,后者在函数空间F迭代。两者优化的方向均为损失函数的负梯度方向。 GBDT的工程化实现主要包括:XGBoost、LightGBM等,与原始的GBDT算法不同,XGBoost和LightGBM在单步迭代的过程使用了二阶导的信息比原始GBDT算法更快。此外,这些工程实现在Feature Splitting、Leaf Growing、Missing Handling和Data Paralleling都有不同形式的优化,可以参考相关文献,这里不再赘述。 MLP和GBDT均为截面学习模型,在没有特征工程的前提下无法提取时序信息。在基于MLP和GBDT的因子生成算法中,通常将时序上所有时间点的样本看作同一分布的样本。忽略了时间序列的信息。 1.3. 时序神经网络RNN 循环神经网络RNN通常也被称为时序神经网络,可以看作为多个时间截面的MLP通过时序状态H传递时序信息。单个时间步t的数学模型如下: 其中X,W,b分别为样本矩阵、权重矩阵和偏置。phi为激活函数,通常为tanh, O为输出。 随着RNN序列的增加,梯度消失和梯度爆炸的问题不可避免,这限制了其对长期依赖关系的建模能力。为了解决这个问题,提出了改进的 RNN模型,例如长短期记忆网络(LSTM)和门控循环单元(GRU),它们引入了门控机制来控制记忆状态的更新,改善了对长序列的建模能力。GRU相比于LSTM将门控机制中的“遗忘门”和“输入门”合并为一个“更新门”。研究(Chung et al., 2014)表明GRU相比于LSTM通常能够获得相同 的模型性能但计算速度更快,因此本文中以GRU作为时序神经网络的基础模型。 GRU的单个时间步t的数学模型如下: 其中 为重置门, 为更新门, 为Hadamard积,GRU一定程度地缓解了梯度爆炸和梯度消失的问题,提高了模型学习长序列的能力。MLP和GBDT为截面学习模型,而RNN模型可以看作为引入了时序信息的MLP,理论上来说,RNN这类时序模型作为Alpha生成模型相比于截面模型能够有更好的表现。在下一个章节中,本文将以日线级别的量价数据作为数据集,进一步探究时序和截面模型在量价Alpha生成算法中的表现差异。 II 基于日线量价数据生成Alpha 2.1. 数据集和模型设定说明 本章基于日线级别的量价数据来探讨不同模型的Alpha学习能力。日线量价数据包括:OPEN、HIGH、LOW、CLOSE、VWAP、VOLUME六个字段。数据集从2011年10月1日开始到2023年8月1日。训练集股票池包括全A股票剔除上市不满三个月,ST、*ST和停牌的股票。此外,MLP和GBDT为截面模型,为了能够一定程度上学习历史信息对截面收益率的影响,本文增加了与GRU序列长度相同数量的量价特征即PRICE(0)、PRICE(-1)…PRICE(-N+1),成交量同理。 为了保证可交易性以及所学习到的因子换手率能够有一定的降低,这里采用次日间隔10天的VWAP价格收益率作为训练label。因为最终实现的指数增强策略以周频调仓,过高的因子换手率会显著侵蚀策略的收益。同时为了与交易情景对应,batch的定义为交易日截面的所有股票作为batch,即训练的过程中,batch大小随时间变化。分析因子分组收益率以及策略实现,均按周一为调仓日并持仓一周。其他固定设置如下: 不同时期市场风格的不同会显著影响Alpha的结构,为了最终学习到的Alpha能够适应最近区间的市场风格,这里采用滚动训练的方式。同时考虑到原始数据集长度的问题,训练前期训练集长度稍短,这里采用训练集随时间拓展的构建方式,即随着时间推移,训练集的长度不断增加,验证集和测试集的长度保持不变。同时为了防止信息泄露,剔除训练集、验证集、测试集相邻的10天样本数据。 MLP的参数主要包括学习率、隐藏层、隐藏层神经元个数等,具体参数设置如表3所示。 GBDT模型这里采用LightGBM作为基础模型。LightGBM的参数如表4所示。 随着以Transformer为基础的各类模型在NLP领域和众多其他领域大放异彩。Attention机制已经在各类模型中广泛运用。因此,本文在GRU模型的基础上,增加基于序列隐藏状态的Self Attention并与原始GRU模型的输出特征拼接构建了GRU with Attention模型,以下简称AGRU。 AGRU相比于GRU增加了对隐藏层输出的Attention分数的计算,理论上来说可以带来增量的时序信息。将隐藏层输出得到的Attention分数与0时间步的GRU输出拼接到一起进入全连接层,最终得到输出。 GRU类的模型的参数主要包括隐藏层层数、特征维度、序列长度等,具体设定如表5所示。 所有模型的数据集参数均按表2中的参数设置。由于模型训练的随机性,本文所有模型均选取不同的固定随机种子训练三次后,在测试集按照三个模型的输出取平均作为因子值。 2.2. 不同模型生成的Alpha表现分析 按照上一节中的数据集说明和模型参数,本文构建了MLP、GBDT、GRU、AGRU四个因子生成模型。本节将重点分析四个模型所生成的因子表现。单因子测试均按5日滚动调仓,且不考虑费率。回测期为20170101至20230801,收益率分组为20组,多头组(TOP组)为20组中的第1组,空头组为20组中的第20组。IC胜率为周度RankIC大于0的比率。ICIR为未年化的指标。多头收益率为绝对收益率、多头夏普为年化指标,多头平均换手率为单边换手率。 图11和图12的对冲基准均为同时期中证全指指数。回测期为2017年1月至2023年7月。相对净值计算方式为:策略净值/基准净值-1。 其他成分股,沪深300、中证500、中证1000的表现如表所示,分组数量为10组。收益率为年化绝对收益率,调仓周期为周频。 从测试的结果来看,GBDT结合历史量价特征的收益率表现最好。GRU模型的单因子RankIC的表现最好。各模型在不同的成分股内的因子的多头收益率都表现出较高的水平。说明机器学习量价因子模型在各个成分股的选股稳定性较高。 2.3. 模型相关性分析与模型集成 在上节中,本文基于日频量价数据构建了MLP、GBDT、GRU、AGRU四个因子学习模型并检验生成的Alpha在全A、沪深300、中证500、中证1000成分股内的表现。GBDT模型在各个成分股内的收益率和ICIR都表现地最好,在全A内多头对冲年化收益率达到29.8%,ICIR达到1.14;其次是GRU模型,GRU模型的RankIC表现好于其他模型,在全A成分股中的表现达到了11.3%。 进一步,不同模型之间学习到的因子相关性同样值得关注。这里按照每日全A成分股内的因子值计算不同模型因子之间的平均相关性和滚动相关性。 从平均相关系数来看GBDT和MLP同属一类截面模型,之间的因子相关性较高。AGRU和GRU同属时序模型之间的相关性较高。MLP模型和AGRU模型的相关最低。时序模型和截面模型之间的相关性低于同类型的模型因子。从两两模型之间的相关性来看,模型间的平均两两相关性有比较明显的上升趋势。 进一步,按照Voting的思路提高整个机器学习Alpha模型的稳定性和收益表现。这里Voting的策略按ICIR加权计分。ICIR的加权比例计算窗口为过去60个交易日。集成因子的表现如下: 其中沪深300、中证500、中证1000的分组为10组,全A的分组为20组。从单因子分析的结果来看按照ICIR加权集成的多模型因子相比于单模型因子的RankIC有一定的提高,在全A成分股内从GRU的RankIC为11.27%提高到11.90%,ICIR与GBDT模型基本相同。多头年化收益率从GBDT的29.84%提高到33.11%。提高了3.27%。多头最大回撤次于AGRU模型好于其他模型。多头夏普与GBDT基本一致。多头周均换手率好于所有单个模型。 分组对冲收益率和对冲净值,对冲基准为中证全指。集成因子分20组的单调性优秀,20组多头对冲净值超额收益明显。集成因子以量价为基础特征。为了分析集成因子与常见风格因子的相关性和Alpha属性,可以计算因子与常见风格因子的截面相关性,以及分析对常见风格因子中性化后的表现 从截面相关性来看,集成因子与残差波动率和流动性的相关性稍高。其他风格因子的暴露较小。进一步通过中性化可以观察集成因子Alpha的稳定性。 对常见因子(市值、估值、流动性、成长等)中性后集成因子的分组单调性有所减弱,周均RankIC从11.9下降到0.77,IC的t值为44.29,ICIR为1.11。集成因子对常见因子中性化以后,选股能力有所减弱,但依然十分显著。分20组的多头年化收益率为18.7%,20组多头的收益率的下降较为明显,其他组的收益率下降幅度较小。从风格暴露上来看,集成因子在流动性因子和残差波动率有一定暴露,流动性因子和残差波动率在A股的选股能力较为显著,风格中性化后一定程度影响了集成因子的多头选股能力。另一方面,线性剔除风格一定程度上在模型中引入了设定误差,在分20组的情形下,影响了中性化后的因子的表现。在后续章节中,本文将基于集成模型构建不同的策略进一步分析模型在策略中的表现。 2.4. TOP100策略分析 TOP100策略即每次持仓股票数量固定100只股票。调仓日按照换仓股票的数量限制N卖出Alpha分数较低的N只股票,并买入得分最高的N只股票以保持持仓股票数目不变。TOP100策略可以一定程度地反应Alpha模型多头的实际表现,并给后续的指数增强策略构建,提供收益率、换手率、风险指标的参考。本文中TOP100策略均为周频调仓,不考虑费率,可根据换手率和交易费率估算。其中hsl为周单边换手率约束。成交价格为次日VWAP价格。 从TOP100策略的绝对收益来看,单边换手率在40%以上收益率变化幅度不大。绝对收益最大回撤在换手率大于20%时无明显变化。2018年策略表现稍弱。单边换手率小于40%时,绝对收益率转负。其他年份收益率较为稳定。 III 指数增强策略构建 指数增强策略的构建主要包括收益模型和风险模型。在本文上一章中构建了基于集成模型的Alpha模型并分析了不同的换手率下全A成分股内TOP100策略的表现。在绝大多数年份策略绝对收益率都为正,且保持较高水平。本章中将基于集成模型构建对应不同指数的指数增强策略。 指数增强的优化目标为最大化预期收益率,中证500和中证1000指数增强策略的风格约束包括市值、估值、成长等为最大偏离0.5个标准差、行业占比偏离约束为最大偏离0.03;沪深300指数增强策略的风格约束为0.01个标准差,行业占比偏离约束为0.01。跟踪误差约束为年化6%。换手率约束为双边30%,40%,50%。成分股约束为无限制(全市场选股)。优化目标如下: 其中mu为预期收益率,w为当前组合权重向量,wt为t时刻持仓权重, wt-1为上一个持仓周期的持仓权重。 约束1为风格约束,用于保证组合的风格偏离不超过下限 和上限 。 约束2为行业偏离约束,用于保证组合行业占比的主动偏离不超过下限 和上限 。 约束3为个股权重的相对偏离。 约束4为成分股占比约束,保证成分股数量占比。 约束5为换手率约束,在优化失败时候,优先删除该约束,保证组合权重能够顺利求解。 约束6为全额投资约束,同时约束 大于0即无卖空限制。 费率设置为:买入费率千分之一,卖出费率千分之二。 其他交易设置:成交价格为次日复权WVAP价格,停牌无法买入卖出、涨停无法买入,跌停无法卖出。dhsl表示双边换手率。 3.1. 沪深300指数增强策略 从结果来看,沪深300指增策略的表现良好,在周双边换手率约束为20%的情况下,取得了最高的超额年化收益率。随着换手率的提高,超额年化收益率有所下降且最大回撤提高,说明交易费用侵蚀了因子收益率。 3.2. 中证500指数增强策略 中证500指增策略在周双边换手率约束大于40%的情况下,超额年化收益率年化收益率没有明显提升但最大回撤增大。继续提高换手率约束限制无法显著提高年化收益率的表现。从上述分析可以看出,沪深300和中证500指增策略的换手率约束不宜过高,这也对因子的自相关性提出了更高的要求。 3.3. 中证1000指数增强策略 中证1000指增策略受换手率限制的影响明显强于沪深300策略和中证500策略。在双边换手率限制提高的过程中,超额年化收益率基本呈现一个上升的趋势,最大回撤呈现出下降的趋势。对于中证1000指增策略,适当提高换手率约束可以提高策略的收益表现。 Ⅳ 总结 本文利用截面模型MLP、GBDT以及时序神经网络GRU、AGRU构建了四个基于日频量价数据的量价因子模型。本文观察到,截面模型在引入历史特征后因子学习能力与时序模型基本处于同一水平。GBDT学习到的因子年化收益率最高。从模型的平均相关性来看,从2017年以来,模型之间的相关性有所提升。整体来看截面模型和时序模型学习到的因子之间的相关性低于同类型模型之间的相关性。通过不同模型的因子60日ICIR的Voting集成之后,集成因子的表现有所提升,ICIR提高到11.9%(全A),多头年化收益率提高到33.11%。说明不同模型之间学习到的因子有一定的增量。 通过分析集成因子与常见因子的相关性,发现量价集成因子在流动性和残差波动率上的风格暴露相对较高,在其他风格上的暴露较低。在剔除了常见风格的影响之后,集成因子的多头组收益率有所下降, 这可能和一定程度的风格暴露有关。中性化集成因子的Alpha依然显著。 最后本文基于集成因子构建了基于沪深300、中证500和中证1000的周频指增策略。沪深300指数增强策略在低还手限制下,费后表现更好。中证500策略双边换手率大于0.4时,费后年化收益率提升不明显,最大回撤有所提高。中证1000在高换手率的情形下能够获得更高的费后年化收益率。在双边还手限制为60%时候,费后年化超额收益率达到20.13%。超额最大回撤-5.62%。信息比率3.07。 前期报告:《端到端的动态Alpha模型——AI系列研究之一》 重要申明 风险提示 本报告仅作为投资参考,基金过往业绩并不预示其未来表现,亦不构成投资收益的保证或投资建议。 本文选自招商证券定量研究团队报告《多模型集成量价Alpha策略-AI系列研究之二》(2023年10月26日发布) 分析师承诺 本研究报告的每一位证券分析师,在此申明,本报告清晰、准确地反映了分析师本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与,未来也将不会与本报告中的具体推荐或观点直接或间接相关。 本报告分析师 任 瞳 SAC职业证书编号:S1090519080004 周靖明 SAC职业证书编号:S1090519080007 周 游 SAC职业证书编号:S1090523070015 特别提示 本公众号不是招商证券股份有限公司(下称“招商证券”)研究报告的发布平台。本公众号只是转发招商证券已发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解或缺乏相关的解读而对资料中的关键假设、评级、目标价等内容产生理解上的歧义。 本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。 招商证券对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。对依据或者使用本公众号所载资料所造成的任何后果,招商证券均不承担任何形式的责任。 本公众号所载内容仅供招商证券股份客户中的专业投资者参考,其他的任何读者在订阅本公众号前,请自行评估接收相关内容的适当性,招商证券不会因订阅本公众号的行为或者收到、阅读本公众号所载资料而视相关人员为专业投资者客户。 一般声明 本公众号仅是转发招商证券已发布报告的部分观点,所载盈利预测、目标价格、评级、估值等观点的给予是基于一系列的假设和前提条件,订阅者只有在了解相关报告中的全部信息基础上,才可能对相关观点形成比较全面的认识。如欲了解完整观点,应参见招商证券网站(http://www.cmschina.com/yf.html)所载完整报告。 本公众号所载资料较之招商证券正式发布的报告存在延时转发的情况,并有可能因报告发布日之后的情势或其他因素的变更而不再准确或失效。本资料所载意见、评估及预测仅为报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。 本公众号所载资料涉及的证券或金融工具的价格走势可能受各种因素影响,过往的表现不应作为日后表现的预示和担保。在不同时期,招商证券可能会发出与本资料所载意见、评估及预测不一致的研究报告。招商证券的销售人员、交易人员以及其他专业人士可能会依据不同的假设和标准,采用不同的分析方法而口头或书面发表与本资料意见不一致的市场评论或交易观点。 本公众号及其推送内容的版权归招商证券所有,招商证券对本公众号及其推送内容保留一切法律权利。未经招商证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。