华泰证券-华泰人工智能系列之三十七:舆情因子和BERT情感分类模型-201022

《华泰证券-华泰人工智能系列之三十七:舆情因子和BERT情感分类模型-201022(28页).pdf》由会员分享,可在线阅读,更多相关《华泰证券-华泰人工智能系列之三十七:舆情因子和BERT情感分类模型-201022(28页).pdf(28页精品完整版)》请在悟空智库报告文库上搜索。
本文研究了基于金融新闻的舆情因子,并测试了BERT文本情感分类模型随着国内量化投资的发展,挖掘另华泰证券类数据中的增量信息逐渐受投资者关注。 另类数据中一大类数据就是华泰人工智能系列之三十七舆情文本数据。 本文提取Wind金融新闻数据中的情感正负面标签构建新闻舆情舆情因子和BERT情感分类模型因子,因子在沪深300内表现最好。 进一步地,本文介绍了前沿的自华泰证券然语言处理(NLP)模型BERT的原理和训练方法,并基于Wind的有标注金融新闻数据训练金融新闻情感分类模型,模型在正负不平衡样本上达到了很高的预测精度。 最后,华泰人工智能系列之三十七本文介绍了BERT模型可解释性工具LIT。 通过LIT可分析文本中字符对于预测结果的重要舆情因子和BERT情感分类模型性并帮助理解BERT的学习机制。 基于金华泰证券融新闻的舆情因子具有一定选股效果,在沪深300内表现最好本文基于Wind金融新闻数据,提取其中的情感正负面标签,构建日频的新闻舆情因子。 2017年以来,因子在沪深300、中证500、全A股的平均覆盖率分别为84.41%,76.16%,63.03%,且覆盖率随时间推华泰人工智能系列之三十七移逐渐上升。 因子在沪深300成分股内表现最好,行业市值中性后RankIC均值为6.13%,IC_IR为0.42舆情因子和BERT情感分类模型,分5层测试中TOP组合年化收益率为17.79%,多空组合夏普比率为1.66。 因子在中证500成分股内表现次之,在全A华泰证券股内则表现最差。 前沿的NLP模型BERT能实现高精度的金融新闻情感分类近年来,NLP领域最前沿的研究成果是预训练模型BE华泰人工智能系列之三十七RT。 模型首先使用大量无监督语料进行语言模型预训练,再使用少量标注语料进行微调来完舆情因子和BERT情感分类模型成具体任务(如本文的金融新闻情感分类)。 本文介绍了BERT的核心原理:Tr华泰证券ansformer和自注意力机制。 随后,本文基于Wind的有华泰人工智能系列之三十七标注金融新闻数据,使用BERT训练金融新闻情感分类模型。 模型在正负不平衡样本上达到了很高的预测精度,样本外的准确率为舆情因子和BERT情感分类模型0.9826,AUC为0.9746,精确率为0.9736,召回率为0.9744。 打开BERT模型的黑箱:模型可解释性工具LIT介绍BERT模型结构复杂且参数量庞大,本文借助Google发布的开源NLP模型可解释性工具LIT华泰证券来打开BERT的黑箱,理解BERT的“思考过程”。 LIT有华泰人工智能系列之三十七两个重要模块:(1)SalienceMaps模块,可分析输入文本中每个字符对于模型预测结果的重要性。 例句中的结果显示,正舆情因子和BERT情感分类模型面情感新闻中“同比预增”、“中标”等字符重要性较高,负面情感新闻中“风控”、“摘牌”、“减持”等字符重要性较高。 说明BERT都能够较好地抓住文本中的关键词,华泰证券做出准确预测。 (2)Attention模块,可分析注意力权重,从而帮助理解BE华泰人工智能系列之三十七RT的学习机制。 风险提示:舆情因子的测试结果是历史舆情因子和BERT情感分类模型表现的总结,存在失效的可能。 本文使用的金融新闻数据只覆盖了华泰证券部分新闻来源,构建的因子可能是有偏的。 模华泰人工智能系列之三十七型可解释性工具LIT可能存在过度简化的风险。