华泰证券-金工: 图神经网络选股与Qlib实践-210221

《华泰证券-金工: 图神经网络选股与Qlib实践-210221(42页).pdf》由会员分享,可在线阅读,更多相关《华泰证券-金工: 图神经网络选股与Qlib实践-210221(42页).pdf(42页精品完整版)》请在悟空智库报告文库上搜索。
人工智能42:图神经网络考虑股票间关系的增量信息,提升选股策略表现本文是华泰人工智能系列第42篇深度研究,介绍图神经网络(GNN)概念,通过微软Qlib平台测试GNN选股效果。 传统因子选股模型中,通常将股票视作相互独立的样本,但股票间显然存在复杂关联,如产业链上下游关系、相关行业主题等。 GNN的优势在于能将股票间关系作为增量信息纳入预测模型。 微软AI量化投资开源平台Qlib已实现动态图注意力网络(GATs_ts),我们测试该方法在沪深300成分股量价因子日频选股上的表现,相比基准模型LSTM,GATs_ts回测期内(2010年至2021年2月初)相对沪深300年化超额收益率从25.7%提升至28.9%,信息比率从2.64提升至2.94。 图神经网络对样本间关系进行建图,将邻居节点的特征聚合到中心节点图神经网络(GNN)将深度学习技术的使用场景从传统的图像、语音拓展至图结构数据,在欺诈检测、购物推荐等领域有广泛应用。 GNN由图信号理论和谱域图卷积发展而来,其思想是对样本间关系进行显式或隐式建图,每个节点对应一条样本,再将邻居节点的特征聚合到中心节点,以更新节点特征。 图卷积网络(GCN)、GraphSAGE、图注意力网络(GAT)是三种具有代表性的GNN。 GCN属于转导学习,当新样本加入时需重新训练模型方能进行预测;GraphSAGE和GAT分别通过聚合器和注意力机制的方式实现归纳学习,可直接用于新样本预测,适用于样本动态变化的股票市场。 图时空网络将循环神经网络与图神经网络相结合,适用于量化选股图时空网络的核心思想是将循环神经网络(或卷积神经网络)与图神经网络结合,目标是学习原始数据时间域和空间域上更丰富的信息,适用于量化选股领域。 关系股票排序框架(RSR)和GATs_ts都属于图时空网络范畴。 RSR在顺序嵌入层采用LSTM学习股票的时间序列特征,随后对股票间的多种类型关系构建显式图,在关系嵌入层使用动态时间图卷积学习股票间的相互作用,最终预测股票收益率排序。 GATs_ts与RSR类似,在动态时间图卷积模块采用GAT的全局注意力机制,无需对股票市场显式建图,而是隐式学习所有节点对中心节点的影响,再将这些信息聚合到中心节点。 Qlib平台实现基于Alpha158因子和GATs_ts的沪深300成分内选股策略微软AI量化平台Qlib已实现一层GATs_ts,在源码基础上加以改造可实现多层GATs_ts。 基于Qlib内置的Alpha158vwap因子库,采用GATs_ts对沪深300成分股进行日收益率预测,使用Qlib提供的TopkDropout策略构建日频调仓投资组合。 回测期内(2010-01-04至2021-02-02),一层GATs_ts年化收益率35.70%,夏普比率1.42,相对于基准沪深300指数的年化超额收益率28.89%,信息比率2.94,超额收益最大回撤-16.92%,表现优于基准模型LSTM和多层GATs_ts。 风险提示:Qlib仍在开发中,部分功能未加完善和验证,使用存在风险。 人工智能挖掘市场规律是对历史的总结,市场规律在未来可能失效。 人工智能技术存在过拟合风险。