东方证券-因子选股系列之九十五:DFQ强化学习因子组合挖掘系统-230817

文本预览:
研究结论 传统的Alpha模型往往单独挖掘每个因子,在挖掘过程中只关注每个因子自身的选股效力,忽略了单因子在应用中的组合需求。实际上我们更关注的是可以协同工作并产生综合效果的因子组合。 本文展示了一种新的因子组合挖掘框架,直接使用因子组合的表现来优化一个强化学习因子生成器,最终生成的是一组公式因子集合,这些因子协同使用具有较高的选股效力。这样做既能保留遗传规划算法公式化的优势,也能提升模型泛化能力,适应多种股票池,还能大幅提升运算效率。 基于强化学习的因子组合生成模型,由两部分组成:1)Alpha因子生成器:使用Maskable PPO模型生成动作,并以token序列的形式生成公式化的Alpha因子。2)Alpha因子组合模型:组合Alpha因子,并给出奖励信号。这两部分互相依赖:因子生成器通过生成新因子提高因子组合的性能。因子组合模型的性能作为奖励信号来优化因子生成器。通过不断重复此交互过程,提升因子组合的选股效力。 DFQ强化学习模型分别在沪深300、中证500、中证1000指数成分股内进行训练测试。采用2015.1.1-2018.12.31的数据作为训练集,2019.1.1-2019.12.31为验证集。2020.1.1-2023.6.30为测试集。挖掘月频因子,考察因子预测未来20天股票收益时的表现。对于每个股票池的预测模型,选取5个不同的随机种子训练5个模型,将5个模型的合成因子值结果取平均作为最终模型的输出。 DFQ强化学习因子明显优于人工因子和遗传规划因子,在三个股票池中都有很强的选股效力,市值偏向性低。在沪深300股票池中,测试集上rankic接近8%,RANKICIR接近1(未年化),5分组多头年化超额收益接近15%。在中证500股票池中,测试集上rankic达到8.5%,RANKICIR达到1.15(未年化),5分组多头年化超额收益达到8.22%。在中证1000股票池中,测试集上rankic达到11.4%,RANKICIR达到1.38(未年化),10分组多头年化超额收益达到13.65%。 DFQ强化学习因子可完全替代人工因子,在300和500股票池中可替代遗传规划因子。强化学习合成因子对人工因子和遗传规划因子分别回归后,残差仍有显著选股效果,RANKIC超过5%,RANKICIR年化超过1。强化学习因子和神经网络因子间存在信息差异,互相之间都不能被完全解释,两两回归残差都具备选股效果。 DFQ强化学习因子沪深300top50组合:20年以来年化超额收益近11%,单边年换手8倍,最大回撤8%。2023年到8.7号超额收益达到4.45%。中证500top50组合:20年以来年化超额16%,单边年换手9倍,最大回撤11%。2023年到8.7号超额收益达到9.45%。中证1000中的top50组合:20年以来年化超额15%,单边年换手10倍,最大回撤16%。2023年到8.7号超额收益达到4%。 DFQ强化学习因子沪深300成分内指数增强组合:20年以来年化对冲收益近8%,单边年换手8倍,最大回撤6%,每年均取得正超额,2023年到8.7号对冲收益达5.28%。中证500成分内指数增强组合:20年以来年化对冲收益超11%,单边年换手9倍,最大回撤8%,每年均取得正超额,2023年到8.7号对冲收益达5.59%。中证1000成分内指数增强组合:20年以来年化对冲收益超8%,单边年换手10倍,最大回撤11%,每年均取得正超额,2023年到8.7号对冲收益达1%。 风险提示 1.量化模型失效风险。 2.极端市场环境对模型的影响。
展开>>
收起<<
《东方证券-因子选股系列之九十五:DFQ强化学习因子组合挖掘系统-230817(39页).pdf》由会员分享,可在线阅读,更多相关《东方证券-因子选股系列之九十五:DFQ强化学习因子组合挖掘系统-230817(39页).pdf(39页精品完整版)》请在悟空智库报告文库上搜索。
(以下内容从东方证券《因子选股系列之九十五:DFQ强化学习因子组合挖掘系统》研报附件原文摘录)研究结论 传统的Alpha模型往往单独挖掘每个因子,在挖掘过程中只关注每个因子自身的选股效力,忽略了单因子在应用中的组合需求。实际上我们更关注的是可以协同工作并产生综合效果的因子组合。 本文展示了一种新的因子组合挖掘框架,直接使用因子组合的表现来优化一个强化学习因子生成器,最终生成的是一组公式因子集合,这些因子协同使用具有较高的选股效力。这样做既能保留遗传规划算法公式化的优势,也能提升模型泛化能力,适应多种股票池,还能大幅提升运算效率。 基于强化学习的因子组合生成模型,由两部分组成:1)Alpha因子生成器:使用Maskable PPO模型生成动作,并以token序列的形式生成公式化的Alpha因子。2)Alpha因子组合模型:组合Alpha因子,并给出奖励信号。这两部分互相依赖:因子生成器通过生成新因子提高因子组合的性能。因子组合模型的性能作为奖励信号来优化因子生成器。通过不断重复此交互过程,提升因子组合的选股效力。 DFQ强化学习模型分别在沪深300、中证500、中证1000指数成分股内进行训练测试。采用2015.1.1-2018.12.31的数据作为训练集,2019.1.1-2019.12.31为验证集。2020.1.1-2023.6.30为测试集。挖掘月频因子,考察因子预测未来20天股票收益时的表现。对于每个股票池的预测模型,选取5个不同的随机种子训练5个模型,将5个模型的合成因子值结果取平均作为最终模型的输出。 DFQ强化学习因子明显优于人工因子和遗传规划因子,在三个股票池中都有很强的选股效力,市值偏向性低。在沪深300股票池中,测试集上rankic接近8%,RANKICIR接近1(未年化),5分组多头年化超额收益接近15%。在中证500股票池中,测试集上rankic达到8.5%,RANKICIR达到1.15(未年化),5分组多头年化超额收益达到8.22%。在中证1000股票池中,测试集上rankic达到11.4%,RANKICIR达到1.38(未年化),10分组多头年化超额收益达到13.65%。 DFQ强化学习因子可完全替代人工因子,在300和500股票池中可替代遗传规划因子。强化学习合成因子对人工因子和遗传规划因子分别回归后,残差仍有显著选股效果,RANKIC超过5%,RANKICIR年化超过1。强化学习因子和神经网络因子间存在信息差异,互相之间都不能被完全解释,两两回归残差都具备选股效果。 DFQ强化学习因子沪深300top50组合:20年以来年化超额收益近11%,单边年换手8倍,最大回撤8%。2023年到8.7号超额收益达到4.45%。中证500top50组合:20年以来年化超额16%,单边年换手9倍,最大回撤11%。2023年到8.7号超额收益达到9.45%。中证1000中的top50组合:20年以来年化超额15%,单边年换手10倍,最大回撤16%。2023年到8.7号超额收益达到4%。 DFQ强化学习因子沪深300成分内指数增强组合:20年以来年化对冲收益近8%,单边年换手8倍,最大回撤6%,每年均取得正超额,2023年到8.7号对冲收益达5.28%。中证500成分内指数增强组合:20年以来年化对冲收益超11%,单边年换手9倍,最大回撤8%,每年均取得正超额,2023年到8.7号对冲收益达5.59%。中证1000成分内指数增强组合:20年以来年化对冲收益超8%,单边年换手10倍,最大回撤11%,每年均取得正超额,2023年到8.7号对冲收益达1%。 风险提示 1.量化模型失效风险。 2.极端市场环境对模型的影响。