东方证券-《因子选股系列研究之七十》:机器因子库相对人工因子库的增量-200911

《东方证券-《因子选股系列研究之七十》:机器因子库相对人工因子库的增量-200911(24页).pdf》由会员分享,可在线阅读,更多相关《东方证券-《因子选股系列研究之七十》:机器因子库相对人工因子库的增量-200911(24页).pdf(24页精品完整版)》请在悟空智库报告文库上搜索。
研究结论国内量化发展已有十余年,各家机构投资者的Alpha因子库已有较大规模,这时面临的问题是,继续花时间和精力进行因子挖掘扩充因子库是东方证券否划算,还能带来多少增量收益。 我《因子选股系列研究之七十》们尝试将近年来兴起的机器学习算法应用到Alpha模型上,进行低频层面的因子挖掘,考察机器因子库相对人工因子库的增量。 机器因子库相对人工因子库的增量本文首先利用遗传规划算法进行因子挖掘,再将机器因子库与人工因子库通过随机森林模型转换为预测收益率,从组合层面进行因子库效果的整体比较。 考虑到技术类因子和财务类因子历史表现差别较大,我们将东方证券这两类因子的挖掘和对比分开进行。 遗传规划是一种启发式的进化策《因子选股系列研究之七十》略算法,可以用来进行选股因子挖掘。 遗传规划算法的主要想法是模拟自然机器因子库相对人工因子库的增量界中生物遗传进化过程,从随机生成的公式种群开始,通过不断变异优化,逐渐生成适应度更优的公式群体。 Pyth东方证券on中的gplearn是目前最成熟的遗传规划包之一。 但gplearn存在不能直接处理多《因子选股系列研究之七十》维面板数据、不能进行时间序列运算等问题,所以不能直接运用于选股因子的挖掘,为此,我们将gplearn的底层代码进行了修改。 基于遗传规划算法进行因子挖掘的整体机器因子库相对人工因子库的增量过程,包括设定随机种子、初始化种群、计算适应度、选择与进化、筛选有效因子五个步骤。 回测区间为2010.06.30C2020.06.30,每半年进行一次因子挖掘,以过去三年的月均因子收益率为东方证券适应度,每次得到100个有效因子,使样本外使用的因子保持最新的状态。 基于随机森林模型进行Alp《因子选股系列研究之七十》ha预测,直接由初始Alpha因子库得到预测收益率。 随机森林模型逻辑简单,参数调整容易,数据过拟合的可能性小,其基分类器决策树可机器因子库相对人工因子库的增量实现噪音变量的剔除,适合处理多变量问题,实际应用效果好。 经过遗传规划算法可以从日频量东方证券价数据中挖掘出有效的月频技术类指标,叠加到传统技术类因子库中之后,多空组合收益和稳定性均有所提高,但提升并不显著。 遗传算法技术类因子与传统技术类因子相比,IC、ICIR《因子选股系列研究之七十》、多空组合月均收益均有提高。 叠加传统技术类因子后,合成因子库的组合表现相比传统技术类因子也有所提升,最大回撤有所降低,但增量机器因子库相对人工因子库的增量在统计上并不显著。 经过遗传规划算法可以从财务报表数据东方证券中挖掘出有效的月频财务类指标,因子整体表现不如传统财务因子,但差异也不显著。 遗传算法财务类因子与传统财务类因子相比,IC、ICIR、多空组《因子选股系列研究之七十》合月均收益均有降低。 叠加传统财务类因子后,相比传统财务类因子,表现也有机器因子库相对人工因子库的增量降低,差异在统计上不显著。 在低频领域,挖掘新因东方证券子相对成熟因子库的增量有限,组合收益更多还得靠因子择时。 风险提示量化模型失效风险市场极端环境《因子选股系列研究之七十》的冲击。