欢迎访问悟空智库——专业行业公司研究报告文档大数据平台!

华泰证券-人工智能63:再探文本FADT选股-221028

研报附件
华泰证券-人工智能63:再探文本FADT选股-221028.pdf
大小:4878K
立即下载 在线阅读

华泰证券-人工智能63:再探文本FADT选股-221028

华泰证券-人工智能63:再探文本FADT选股-221028
文本预览:

《华泰证券-人工智能63:再探文本FADT选股-221028(43页).pdf》由会员分享,可在线阅读,更多相关《华泰证券-人工智能63:再探文本FADT选股-221028(43页).pdf(43页精品完整版)》请在悟空智库报告文库上搜索。

  人工智能63:分析师研报文本挖掘框架升级
  本文承接前期研究文本FADT选股,重点关注如何对文本因子本身进行升级。前期研究的核心思路是在特定场景下,以分析师研报文本的词频向量为特征,以研报发布前后两日个股超额收益为标签,引导XGBoost模型学习研报情绪蕴含的超额信息。在本文中我们将词频向量替换为FinBERT隐藏层编码的特征向量作为后续浅度学习模型的输入,隐藏层编码蕴含更丰富的文本语义信息,相比词频信息损失更少,以此带来更显著的alpha提升。
  引入FinBERT编码以后文本因子收益提升明显
  升级以后的文本因子十分层多头第一层年化收益由原版的22.87%提升至27.50%,相对中证500超额收益由14.75%提升至19.19%(回测期20090123-20220930),提升较为明显。针对改进后的因子我们展示了三组应用案例:1)构建25只股票的主动量化不等权选股组合,年化收益45.90%,相对中证500年化超额36.35%;2)限制在总市值100亿以上的股票池中用文本因子构建等权精选组合,Top20年化收益31.12%,相对中证500年化超额23.94%;3)构建沪深300内精选30不等权组合,年化收益17.58%,相对沪深300年化超额12.44%。
  FinBERT是专门针对金融领域训练的BERT,使用Adapter-BERT微调
  BERT是Google在2018年提出的自然语言处理模型,在超过11项的NLP任务中均取得十分惊艳的结果。本文使用熵简科技于2020年末开源的FinBERT模型,对于金融领域任务具有更强的针对性,在金融领域的相关任务中表现均超过原版BERT。由于FinBERT微调参数量超过1亿,我们使用Adapter-BERT技术在基本不影响模型微调性能的前提下,降低微调参数至约三百万,提升模型的训练效率。
  模型升级:FinBERT微调+CLS层编码+XGBoost二次训练
  使用FinBERT来对分析师研报文本进行向量编码并构建文本因子,主要包括三个步骤:1)使用万得新闻舆情文本对FinBERT进行微调,使得FinBERT的分类准确率可以达到95%以上;2)使用FinBERT对分析师研报文本进行编码,将预处理过的研报文本输入给FinBERT,提取CLS层输出作为研报的特征向量;3)使用上述编码好的特征向量替代词频向量,使用与原版模型同样的标签,引导XGBoost模型样本内进行交叉验证训练,样本外预测并构建forecast_adj_txt_bert因子。
  多组扩展测试表明过拟合概率低,更充分的语义理解带来显著alpha提升
  同样我们还是关注模型升级过程中是否有过拟合的问题。除了基础参数,我们展示了五组扩展测试:1)文本预处理时,截断和分段的比较;2)FinBERT微调与不微调的比较;3)CLS层编码与全连接层编码的比较;4)CLS层编码与词频特征结合是否有提升;5)仅使用FinBERT微调的效果。整体来看前四组测试都有效,模型升级大概率不是偶然因素导致的过拟合。
  与传统因子相关性低,且不同场景下文本因子均有明显提升
  此外我们讨论了forecast_adj_txt_bert因子与Barra因子及传统多因子的相关性,发现相关性较低,alpha特异性较强。最后我们在不同的场景下讨论了文本因子升级的效果,发现在业绩发布场景、卖方分析师评级调整场景下文本因子均有明显提升,再次说明模型升级较为稳健。
  风险提示:通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子历史结果不能预测未来,互联网开源模型需注意可复现性,敬请知悉。
  

展开>> 收起<<

#免责声明#

本站页面所示及下载的一切研究报告、文档和内容信息皆为本站用户上传分享,仅限用于个人学习、收藏和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。如若内容侵犯了您的权利,请参见底部免责申明联系我们及时删除处理。