东方证券-因子选股系列之九十:DFQ遗传规划价量因子挖掘系统-230528

文本预览:
研究结论 国内量化发展已有十余年,各家机构投资者的alpha因子库已有较大规模,传统人工构建alpha因子的方法已遇到瓶颈。为了对人工因子库进行补充,我们在传统alpha模型的体系下引入遗传规划方法,将挖掘因子的部分交给机器。 此次我们对遗传规划算法进行了全面升级,开发出了一套高效的DFQ遗传规划价量因子挖掘系统。加入自定义的特征和算子,指定适应度指标,从一个随机种群出发,可以通过多代进化得到更优子代。挖掘过程可以重复多轮,从而可以得到多个适应度高、低相关、有显式表达式的选股因子。 遗传规划算法在选股因子挖掘问题上有其难以被其他方法替代的独特优势,我们概括了12点优势:有着直观易懂的底层逻辑,能够自动化特征生成与选择,可以融合人工先验信息,捕捉非线性和交互效应,生成的因子具有显式表达式,可解释性强,能够实现全局优化,对噪声较为鲁棒不易过拟合。算法内部透明白盒,可拓展空间大,自由度高。是一个可持续进行的因子挖掘工具。对计算性能要求相对低。应用广泛,既可以挖掘单因子使用,也可以将挖掘出的多个有效低相关的单因子进行合成,获得个股综合打分。还可以与其他机器学习模型结合,互相间并不冲突。 由于在进化过程中缺乏明确的目标引导,常规的遗传规划算法进化效率低下。如何能提升进化效率,在有限的算力,有限的时间内,进化出更多、更好、更短、更低相关的因子,是算法的核心痛点,也是DFQ模型的核心改进点。 DFQ模型主要有7点改进:提升初始种群质量,提升每代种群质量,提升每代产生的有效公式数量,避免公式膨胀,动态调整每代进化参数,降低挖掘因子的相关性,避免无效运算。 DFQ模型以2012-2016年为训练集,2017-2023年作为样本外测试集。输入47个日度量价和日内分钟量价特征和6个常数,配合81个算子,以行业市值中性化IC作为适应度,挖掘全市场月频价量因子。 DFQ模型挖掘效率较高,进行一轮15代完整挖掘用时5-24小时不等,一轮完成后可产生20-50个适应度超过5%,且互相间相关系数不超过50%的单因子。我们在挖掘3天后已找到324个训练集适应度超过5%,不重复,且与人工18个价量因子相关性不高的单因子。其中只有45个在12年以来全样本中性化IC绝对值不到5%,样本外衰减率不到14%。 结合挖掘出单因子样本内外的表现和逻辑性,我们精选了10个单因子,均满足:12年以来中性化IC绝对值达到8%以上,中性化ICIR绝对值达到年化4以上;样本外未出现明显效果衰减,全样本IC不大幅低于训练集适应度;12年以来十组多头超额收益达到10%以上;单调性绝对值达到99%以上;与18个人工因子最大相关系数低于50%;因子原始值缺失率低于6%;因子表达式长度低于10。 在弹性网络模型下,DFQ合成因子17年以来的月频RankIC达到12.72%,年化ICIR5.44。合成因子20分组单调性较好,多头端分年表现也十分稳定,2017-2023年每年多头超额均超过8%,17年以来多头超额年化13.29%,年化夏普2.42,最大回撤仅为3.5%,月度胜率达到74%,月均换手单边72%。20年以来多头表现不降反升,多头超额收益年化提高到14.32%。 风险提示 1.量化模型基于历史数据分析,未来存在失效风险,建议投资者紧密跟踪模型表现。 2.极端市场环境可能对模型效果造成剧烈冲击,导致收益亏损。
展开>>
收起<<
《东方证券-因子选股系列之九十:DFQ遗传规划价量因子挖掘系统-230528(30页).pdf》由会员分享,可在线阅读,更多相关《东方证券-因子选股系列之九十:DFQ遗传规划价量因子挖掘系统-230528(30页).pdf(30页精品完整版)》请在悟空智库报告文库上搜索。
(以下内容从东方证券《因子选股系列之九十:DFQ遗传规划价量因子挖掘系统》研报附件原文摘录)研究结论 国内量化发展已有十余年,各家机构投资者的alpha因子库已有较大规模,传统人工构建alpha因子的方法已遇到瓶颈。为了对人工因子库进行补充,我们在传统alpha模型的体系下引入遗传规划方法,将挖掘因子的部分交给机器。 此次我们对遗传规划算法进行了全面升级,开发出了一套高效的DFQ遗传规划价量因子挖掘系统。加入自定义的特征和算子,指定适应度指标,从一个随机种群出发,可以通过多代进化得到更优子代。挖掘过程可以重复多轮,从而可以得到多个适应度高、低相关、有显式表达式的选股因子。 遗传规划算法在选股因子挖掘问题上有其难以被其他方法替代的独特优势,我们概括了12点优势:有着直观易懂的底层逻辑,能够自动化特征生成与选择,可以融合人工先验信息,捕捉非线性和交互效应,生成的因子具有显式表达式,可解释性强,能够实现全局优化,对噪声较为鲁棒不易过拟合。算法内部透明白盒,可拓展空间大,自由度高。是一个可持续进行的因子挖掘工具。对计算性能要求相对低。应用广泛,既可以挖掘单因子使用,也可以将挖掘出的多个有效低相关的单因子进行合成,获得个股综合打分。还可以与其他机器学习模型结合,互相间并不冲突。 由于在进化过程中缺乏明确的目标引导,常规的遗传规划算法进化效率低下。如何能提升进化效率,在有限的算力,有限的时间内,进化出更多、更好、更短、更低相关的因子,是算法的核心痛点,也是DFQ模型的核心改进点。 DFQ模型主要有7点改进:提升初始种群质量,提升每代种群质量,提升每代产生的有效公式数量,避免公式膨胀,动态调整每代进化参数,降低挖掘因子的相关性,避免无效运算。 DFQ模型以2012-2016年为训练集,2017-2023年作为样本外测试集。输入47个日度量价和日内分钟量价特征和6个常数,配合81个算子,以行业市值中性化IC作为适应度,挖掘全市场月频价量因子。 DFQ模型挖掘效率较高,进行一轮15代完整挖掘用时5-24小时不等,一轮完成后可产生20-50个适应度超过5%,且互相间相关系数不超过50%的单因子。我们在挖掘3天后已找到324个训练集适应度超过5%,不重复,且与人工18个价量因子相关性不高的单因子。其中只有45个在12年以来全样本中性化IC绝对值不到5%,样本外衰减率不到14%。 结合挖掘出单因子样本内外的表现和逻辑性,我们精选了10个单因子,均满足:12年以来中性化IC绝对值达到8%以上,中性化ICIR绝对值达到年化4以上;样本外未出现明显效果衰减,全样本IC不大幅低于训练集适应度;12年以来十组多头超额收益达到10%以上;单调性绝对值达到99%以上;与18个人工因子最大相关系数低于50%;因子原始值缺失率低于6%;因子表达式长度低于10。 在弹性网络模型下,DFQ合成因子17年以来的月频RankIC达到12.72%,年化ICIR5.44。合成因子20分组单调性较好,多头端分年表现也十分稳定,2017-2023年每年多头超额均超过8%,17年以来多头超额年化13.29%,年化夏普2.42,最大回撤仅为3.5%,月度胜率达到74%,月均换手单边72%。20年以来多头表现不降反升,多头超额收益年化提高到14.32%。 风险提示 1.量化模型基于历史数据分析,未来存在失效风险,建议投资者紧密跟踪模型表现。 2.极端市场环境可能对模型效果造成剧烈冲击,导致收益亏损。