中信建投-多因子与ESG策略:关系型数据增强模型训练,新闻共同报道-230108

《中信建投-多因子与ESG策略:关系型数据增强模型训练,新闻共同报道-230108(18页).pdf》由会员分享,可在线阅读,更多相关《中信建投-多因子与ESG策略:关系型数据增强模型训练,新闻共同报道-230108(18页).pdf(18页精品完整版)》请在悟空智库报告文库上搜索。
关系型数据
量化选股存量因子维度日渐增长,实际应用中对因子的诉求已不仅是单因子评估维度的强弱,而更侧重于对原有因子的边际增量。机器学习这类非线性工具在因子合成环节的应用,使得因子底层信息源的挖掘更加充分,新的底层信息和数据源是因子增量效果的潜在途径。本报告利用新闻共同报告次数来刻画股票之间关联程度,进而利用股票之间的关联关系在因子建模环节进行增强。
新闻共同报道
股票之间被新闻共同报道意味着被关联到共同的实时热点消息和事件,反映了舆情层面存在共同的影响因素,为刻画股票之间的关联程度提供了一个新的维度。
本文从特征工程的环节出发,基于新闻共同报道信息构造关系矩阵,在已有因子库的基础上对因子进行批量的衍生,利用存量的有效因子和新的数据源交互的方式生成低相关性的新因子,从而为存量因子库和多因子选股应用场景带来信息增量。
在模型训练和因子合成环节,存量因子的基础上加入衍生因子,利用新闻共同报道关系网上的关联个股信息对收益率进行联合预测。全周期来看,所合成的因子在IC上提升了1.35%,在年化IR上提升了0.9。
在分组、多空组合评估上,存量因子加入新闻共同报道数据衍生因子后所训练的模型输出,相比于仅用存量因子所训练的模型输出在超额、夏普等评估指标上有不同程度的提升,从全周期来看,相比原始因子,叠加新闻共同报道衍生因子后的年化收益在头部组合提升了2.3%,在多空组合提升了2.4%。
风险提示:模型计算可能存在偏误,业绩不代表未来;因子测试、机器学习建模是对历史经验的总结,模型学习到的市场规律在未来存在失效的可能。