【华泰金工林晓明团队】人工智能56:新闻舆情分析的HAN网络选股
(以下内容从华泰证券《【华泰金工林晓明团队】人工智能56:新闻舆情分析的HAN网络选股》研报附件原文摘录)
林晓明 S0570516010001 SFC No.BPY4211 研究员 李子钰 S0570519110003 SFC No.BRV743 研究员 何 康 S0570520080004 SFC No.BRB318 研究员 陈伟 S0570121070169 联系人 报告发布时间:2022年4月23日 摘要 人工智能56:使用混合注意力网络对个股的多条舆情进行挖掘 本文通过注意力机制来模仿人类学习新闻舆情时的“顺序内容依赖”和“多样化影响”,构建起对个股同一日多条新闻、不同自然日不同新闻进行文本挖掘从而预测个股短时走势的混合注意力机制网络HAN(Hybrid Attention Networks),在沪深300股票池内构建的TopK-Dropout策略具有较为明显的多头端收益,对训练后模型的注意力系数进行分析表明各模块的注意力机制可以较好地聚焦于个股的重点舆情,与预期较为一致。 HAN网络设置三组注意力模块:词语注意力、新闻注意力和时序注意力 HAN网络主要通过三组注意力模块来模仿人类学习新闻舆情的过程。词语注意力是指人类在浏览文字时聚焦于某些关键的词语和语句,抽象出重要的信息,形成对文本的理解;新闻注意力是指人类在阅读多条新闻时由于新闻蕴含的信息差异从而赋予不同的关注度;时序注意力是指人们根据新闻重要性和时效性的日间差异,为不同日期分配关注度。三组注意力都以神经网络权重的形式体现,最终赋予那些对股价影响更大的新闻以更高的权重系数。 在沪深300股票池内进行数据实证,HAN多头端收益明显 以沪深300指数成分股为股票池进行数据实证,每条样本设置为个股过去10个自然日的舆情,每个自然日设置舆情上限为5条,预测个股未来一个交易日的涨跌。以样本外预测得到属于上涨类别的概率作为HAN日频因子,并构建30只股票等权持有的组合,每天根据HAN日频因子值替换1只股票,该策略相对沪深300等权的年化超额为15.96%,回测期20190103-20220331,分层回测表明HAN日频因子多头端收益较为明显。 设置多组对照试验验证注意力机制的有效性 为验证注意力机制的有效性,采取空白对照的方式对比了四组实验的结果。 结果表明注意力机制的有无对最终结果有较大影响,有注意力模块的网络选股效果明显要好于无注意力模块的网络;不同模块注意力机制影响不同,词注意力模块的缺失对选股结果影响相对较小,去除词注意力模块以后年化收益与年化超额收益大约削减2%左右;新闻注意力与时序注意力的缺失对选股结果影响较大。 对注意力系数进行可解释性分析,整体与预期相符,但仍存提升空间 分析各个模块的注意力系数,发现词注意力模块中模型会对有实际含义的词赋予较高的注意力,对专有名词赋予较低的注意力;新闻注意力中模型会对与个股直接相关的新闻赋予较高的注意力,对行业/宏观的新闻赋予较低的注意力;时序注意力模块中会对较近期的新闻赋予较高的注意力。整体来看注意力系数的分析具有一定的逻辑,与我们的预期较为符合。 研究背景 另类数据是指传统的价量、财务数据以外,能够为投资者提供增量信息的数据,比如新闻舆情、分析师研报、上市公司ESG数据等。与传统数据的最大区别在于,另类数据大多非结构化、来源多样,且数据源的收集较为困难。人工智能方法是对另类数据进行分析的有效手段,华泰金工人工智能系列已经有三篇对另类数据挖掘的相关研究,分别为《人工智能37:舆情因子和BERT情感分类模型》(20201022)、《人工智能41:基于BERT的分析师研报情感因子》(20210118)及《人工智能51:文本PEAD选股策略》(20220107),分别对舆情文本和分析师研报文本进行了不同角度的挖掘,本文是文本挖掘的第四篇报告。 传统对于新闻舆情的挖掘大多停留在单条文本的处理,例如我们在文本PEAD选股策略的构建过程当中对每位分析师的业绩点评进行单独处理,而没有考虑到不同分析师的观点可能带来的不同影响以及如何整合不同的观点。这与我们阅读分析师点评的直观经验不相符:大多数情况下我们会阅读不同分析师、不同时间的点评,并认为某些点评是重要的而某些点评相对不那么重要,以此形成对个股的整体理解。 新闻舆情的解读与此类似,某段时间内与同一只个股相关的所有新闻中,并非所有新闻都有关键性影响,例如投资者对于新闻发布的市场当天涨跌幅数据并不那么关注,因为他们从行情软件中早已获知相关信息且该信息只能表征过去,但投资者会格外关注分析师对个股的解读以及后市观点,此类高信噪比的新闻对其接下来的投资行为可能具有决定性影响。 如何描述这种不同重要性程度所带来的对个股的不同影响?或许深度学习中的注意力机制为我们提供了一种可能的解决方案。本文通过注意力机制技术来模仿人类学习新闻舆情时的“顺序内容依赖”和“多样化影响”,构建起对个股同一日多条新闻、不同自然日不同新闻进行文本挖掘从而预测个股短时走势的混合注意力机制网络HAN(Hybrid Attention Networks),在沪深300股票池内具有较为显著的多头收益。本文将主要围绕以下几个部分展开: 1. HAN网络结构,重点对其中的注意力模块进行解读; 2. HAN应用于A股市场的实证,在沪深300股票池内对HAN日频因子进行有效性分析,尝试构建有效的选股策略; 3. 对不同模块的注意力机制进行空白对照实验; 4. 对不同模块的注意力机制进行解读。 HAN混合注意力机制网络原理 模型思想 面对纷繁复杂的股票新闻舆情,人们会根据顺序内容依赖(Sequential Context Dependency)和多样化影响(Diverse Influence)两个原则,形成对股票趋势的认知。第一,由于单一新闻蕴含的信息并不充足,人们往往会详尽地阅读近期与某家公司相关的所有新闻,进行更为可信的价格趋势预测,这就是顺序内容依赖。第二,不同新闻甚至不同词语提供的信息不尽相同,造成对股票预测的“多样化影响”。例如,相比于简单陈述过去市场表现,知名分析师对未来趋势的点评会显得更有参考价值;“定增”、“中标”、“减持”、“预增”等高信噪比词语比“的”、“与”、“晚间”等低信噪比词语更能吸引投资者的注意。 Ziniu Hu等(2017)提出的混合注意力机制网络(Hybrid Attention Networks, HAN)可以模仿人类认知新闻的这两大原则对新闻舆情进行学习。为了模拟多样化影响,HAN在网络结构的前半部分引入了词语和新闻层面的注意力机制,对不同的词语和新闻赋予相应的权重,由网络自动学习权重分配,更有效地根据不同新闻的有效性来提取新闻文本中的信息。为了形成顺序内容依赖,HAN在网络结构的后半部分运用了双向循环神经网络BiGRU,适用于处理新闻时间序列数据,并进一步通过时间层面的注意力机制,对每个日期的新闻赋予不同的权重,从而实现对所有数据的整合,最终输出对股票趋势的预测。接下来我们将详细介绍HAN网络的原理及其中蕴含的思想。 模型结构 HAN模型的原始完整结构如图表1所示,包括词嵌入(Word Embedding)、词语注意力机制、新闻注意力机制、双向门控循环单元(BiGRU)、时间注意力机制及多层感知机(MLP)。值得一提的是,原论文中只有新闻和时间层次的注意力机制,但我们认为不同词语在新闻解读的过程中重要性也是千差万别的,因此增加了词语层次的注意力机制,如图表2所示。我们将对网络的各个模块进行解读。 首先界定本文的任务目标:作为混合注意力机制网络的初探报告,我们借鉴了原论文的做法,以日频股票涨跌作为HAN网络的预测标签。对于第t个交易日的股票S,我们想要利用过去N个自然日中与该股票相关的新闻[Ct-N, Ct-N+1, ... , Ct-1]来预测该股票的t~t+1日收益,该收益可以用日频开盘价或成交均价来衡量。假设每个自然日与股票S有关的新闻有L则,Ct = [nt1, nt2, ... , ntL];每则新闻有M个词语,nti = [wi1, wi2, ... , wiM]。 词嵌入 作为非结构化数据,新闻文本需要经过一定的预处理,才能输入神经网络模型。最简单的处理是one-hot编码,向量的每个维度对应一个词语,比如“华泰证券”可以表示为[[1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]]。这样的不足是,如果想要覆盖所有的词汇,向量的维度将特别大,占据较高存储空间,且难以表征词语之间的相似性。词嵌入是一种更好的向量化方式,它基于文本中的上下文位置进行训练,既能构建出更低维度的向量,也能保留词语之间的相似性。 常见的词嵌入方法有Skip-gram和CBOW,它们的基本思想是:词汇表中的每个词语可以表示为固定维度的向量;有大量的文本作为预训练语料;文本中的每个位置t上,有一个中心词语c和上下文词语o;根据词向量,计算c和o的相似度,得到给定c条件下o出现的概率(Skip-gram),或者给定o条件下c出现的概率(CBOW);不断调整词向量,使得概率最大化。 下面以Skip-gram为例,介绍算法的原理。对于中心词语和上下文词语,各有一套词向量化的方式v和u,比如中心词语c可表示为向量vc,上下文词语o可表示为向量uo。给定c条件下o出现的概率为 目标函数Jθ 定义为 概率L(θ)最大化,即目标函数J(θ)最小化。可通过梯度下降法或随机梯度下降法等方法迭代,获得最优的词向量参数。 在实际操作中,我们首先借助Python中的jieba库,将段落切分成有意义的汉字和词语。比如,“中国铁建财务公司落地首笔国债逆回购”切分后变为“中国|铁建|财务|公司|落地|首笔|国债|逆|回购”;之后,利用北京师范大学和中国人民大学研究者开源的中文预训练词向量Chinese-Word-Vectors,将切分的每个词语转化为300维的向量。 为了检验预训练词向量能否反映词语之间的相似性,我们做了一些测试。首先,根据词向量的余弦值可以计算词语之间的相似度,从而挑选出与测试词语最为接近的词语。比如,输入“复旦大学”,会发现“北京大学”、“南京大学”、“武汉大学”、“上海交通大学”是最为相似的词语,其中“北京大学”和“复旦大学”相似度为0.63;输入“广州市”,会出现“天河区”、“越秀区”、“番禺区”、“花都区”、“海珠区”等广州市内的县级行政区划,其中“天河区”与“广州市”的相似度可达0.74。另外,通过主成分分析(PCA)对词向量进行降维处理,可以用二维散点图直观地反映词语之间的关系。比如,“清华大学”、“北京大学”、“浙江大学”在散点图中的位置非常接近,说明这三个词语含义较为相近,类似的还有“北京”、“上海”、“广州”,以及“华泰”、“中信”、“中金”。通过这两个简单的测试,我们发现预训练词向量能够较好地表示词语的实际含义。 词语注意力机制 人类在浏览文字时,往往不是按部就班地逐字阅读,而是会聚焦在一些关键的词语和语句上,抽象出重要的信息,形成对文本的理解。借鉴人类的阅读行为,2015年Dzmitry Bahdanau等人对传统的encoder-decoder模型加以改进,提出了注意力机制,有效提升了机器翻译的性能。模型结构如下图所示,其核心在于使用注意力机制构建了语境向量ci: 其中,hj表示词语的注解,αij表示hj在构建语境向量ci中的权重。αij的确定需要两个步骤,首先是根据decoder中前一时刻的隐状态si-1及encoder中的隐状态hj,通过对齐模型a计算得到eij,再由eij进行softmax处理后得到αij。对齐模型是指,翻译前后的文本一般不是等长的,所以需要一个模型来对齐文本,原文中运用的对齐模型本质上也是一个前馈神经网络,能够刻画encoder第j个输入与decoder第i个输出的匹配程度,并与整个翻译模型中的其他参数联合训练。 新闻注意力机制 考虑到不同新闻在预测股票趋势中的差异化影响,HAN也加入了新闻注意力机制。每则新闻ni,通过一层神经网络得到注意力值vi,使用softmax标准化后得到新闻的注意力权重αi,最后加权平均得到日期向量d,代表某一天中所有新闻的信息。具体的数学公式如下: 双向门控循环单元 循环神经网络R NN 是时间序列建模的经典模型,但 标准 RNN 在应用中会遇到梯度消失的问题,难以记忆长期的信息。长短期记忆网络( LSTM )和门控循环单元 GRU )可以利用门控机制来保留长期信息,解决梯度消失问题。其中, GRU 结构更为简单,参数量更少,且 能在语音识别等任务中与 LSTM 表现同样出色。 值得注意的是,这里的未来信息是相对于过去而言的,比如使用前10天的新闻预测第11天到12天股价的涨跌,那么第5天的新闻处理是可以利用第1天和第10天的信息的,在股价预测上并不会造成未来数据的问题。 时间注意力机制 HAN同样使用注意力机制,反映不同时间的新闻在股票预测中的差异化影响。BiGRU输出的每日信息hi,通过一层神经网络得到注意力值oi,使用softmax标准化后得到日期的注意力权重βi,最后加权平均得到V。具体的数学公式如下: 多层感知机 经过词嵌入、循环神经网络和一系列的注意力机制,输出V可以表征股票S过去N个自然日的新闻舆情信息,接下来再通过判别网络层(三层全连接网络结构),最后输出对未来股票趋势的预测——上涨、下跌或平稳。 HAN网络选股实证 本章应用HAN网络在A股市场进行新闻舆情分析选股的实证,主要探究两个目标:HAN网络选股是否有效以及不同模块的注意力机制对最终选股结果的影响。我们将主要分为以下几个部分展开介绍: 1)新闻舆情数据源介绍; 2)实验组与对照组的设计; 3)对比实验结果展示; 4)注意力分析。 总体来说,基于HAN网络的舆情分析选股较为有效,且模型的注意力分配基本与我们预想的较为一致。从结果来看,Word-Level、News-Level和Temporal-Level三个模块的注意力对最终的回测结果都有较大影响,Word-Level影响较小;News-Level和Temporal-Level影响较大。 新闻舆情数据源介绍 本文数据实证部分所使用的新闻舆情数据来自于万得底库Financial_News表,该表记录了自2015年以来A股市场每日的新闻舆情数据。这里我们展示该表按OPDATE字段提取出的2017/11/3日的部分舆情数据,对其中的字段进行解读。 PUBLISHDATE字段表示该新闻的发布时间,OPDATE表示该新闻进入万得数据底库的时间。需要注意的是,存在少部分样本可能不是OPDATE当天发布的,例如上表中所展示的第一条样本是2017/10/27发布的,而该新闻直到2017/11/3才进入万得底库。从回测的角度,2017/10/27当天我们无法从底库读取到这条新闻,而如果等到2017/11/3才使用该样本,则时效性已经不满足,因此这样的样本我们都予以剔除,保证发布日期与入库日期相同。 WINDCODES字段表示该新闻涉及到的股票代码,为新闻与股票应构建联系关系的唯一标识字段;MKTSENTIMENTS表示该条新闻的情感倾向,由万得标注,大部分新闻没有情感倾向标注。TITLE与CONTENT为新闻的标题与摘要,是文本数据的具体来源,本文在对该文本进行处理时将标题与摘要拼接在一起当作每条样本的文本输入。 实验组设计:网络结构与参数设置 前文已经从理论层面详细介绍了HAN网络的结构,这里不再赘述。本章展示我们在tensorflow中搭建HAN网络时所使用的具体网络层数以及超参数设置。 本文所使用的Embedding预训练模型为北京师范大学和中国人民大学研究员开源的中文预训练词向量Chinese-Word-Vectors,将切分的每个词语转化为300维的向量,在第一章我们已经针对该预训练模型进行过一些测试,结果表明确实可以较好地衡量词语之间的相似程度,不再赘述。 这里我们展开解释训练迭代次数的选择原因:一般来说在神经网络训练时每个epoch里steps的步数是由样本总量和batch_size决定的,尽量保证每轮训练可以将全部样本遍历一次。但我们在实际训练中发现,受限于算力不足,如果每轮训练都将样本全部遍历一次大约需要6000~8000个steps,时间开销较高,因此为兼顾训练时间与模型学习效率,我们将每轮epoch的训练迭代次数固定为200个steps。这也就意味着,实际上可能存在部分样本没有参与训练。 关于模型训练中的一些细节再予以单独说明: 1. 如果某个自然日个股新闻数量为零,则当天的5条新闻都以PAD进行处理;如果当天新闻数量大于5条,则按读取顺序依次取前5条新闻; 2. 本文进行的是分类任务,即根据样本内全部样本的个股日频收益率(按开盘价计算)上下三分之一分位数作为阈值,将样本划分为上涨、震荡、下跌三个类别;使用的损失函数为交叉熵损失函数。 对照组设计:删除不同模块注意力的对比试验 HAN网络的设计围绕着注意力机制展开,因此关于注意力机制有无的对比试验是HAN网络研究绕不开的话题。本小节我们将三组注意力模块分别替换为等权求均值,在保证其他网络超参数都一致的条件下进行对比实验,使结果的比较有意义。对比试验如下图所示: 上图中标记为Weight-Sum的模块表示有注意力机制,标记为Average的模块表示注意力机制被替换为向量等权平均:以词注意力机制为例,有注意力机制表示网络结构当中会对一条新闻的200个词编码向量(200是预先设定的每条新闻的最大词语长度)生成对应的注意力权重,并加权求和得到该条新闻的编码向量;无注意力机制则直接将200个词向量编码求平均作为该条新闻的编码向量,如下图所示,其余模块对照组类似。 比试验结果展示 本小节我们展示HAN网络新闻舆情分析在A股的选股实证结果。以沪深300为股票池,每条样本的输入特征为T日过去N天的新闻序列,每天最多选取的新闻数量为L条,每条新闻的长度为W,每个单词的向量编码长度为V,关于上述参数的选择可以参考图表13。每条样本的标签为T+1日开盘价至T+2日开盘价,因此后文数据实证的调仓频率均为日频。 数据实证我们主要分为三个部分展开: 1. TopK-Dropout策略:回测开始的第一个交易日根据前一天HAN预测出的股票得分选择排名靠前的K只股票等权持有;接下来的每个交易日根据前一天HAN预测出的得分,剔除组合内得分最低的一只股票,纳入组合外得分最高的一只股票; 2. 因子IC测试:将HAN预测得分视为日频因子进行因子IC计算; 3. 因子分层回测:将HAN预测得分视为日频因子进行单因子分层回测。 在展示数据测试的结果之前,我们可以首先看一下HAN预测得分在沪深300股票池上的覆盖度,该覆盖度的实际含义为:过去10个自然日中至少有1则新闻的股票数量,可以看到整体覆盖度超过90%,偶尔覆盖度会有降低。 TopK-Dropout策略 回测开始的第一个交易日我们根据前一天HAN预测出的股票得分选择排名靠前的K只股票等权持有;从第二个交易日开始每天根据前一天HAN预测出的得分,剔除当前持仓组合内得分最低的一只股票,并以剩余资金买入组合外得分最高的一只股票。每次模型重新训练时持有的K只股票会根据最新沪深300成分股全部重新替换为得分最靠前的K只股票。关于K的选择在对比实验时我们都以30为例进行展示;后文我们对K的选择进行讨论。 通过以上对比实验,我们可以总结出如下结论: 1. HAN混合注意力机制网络选股效果较为优秀,TopK-Dropout策略在回测区间可以获得较为显著的超额回报,区间相对于沪深300等权指数年化超额15.96%,超额稳健;且TopK-Dropout策略受手续费影响较小; 2. 注意力机制的有无对最终结果有较大影响,有注意力模块的网络选股效果明显要好于无注意力模块的网络,且效果相差较大; 3. 不同模块注意力机制影响不同,词注意力模块的缺失对选股结果影响相对较小,去除词注意力模块以后年化收益与年化超额收益大约削减2%左右;新闻注意力与日期注意力的缺失对选股结果影响较大,去除新闻注意力或日期注意力以后选股结果几乎难以获得超额收益,超额收益在零附近波动。 但值得说明的是,我们在测试的过程中发现某些情形下,即使是三组注意力模块都存在,选股结果也可能由于模型超参数的变化而产生一定范围的波动,因此这里我们展示的对照试验结果未必呈现出了对应网络结构下的最优选股效果,仅是在保证其余超参数都一致的情形下的严格对照。 除此以外,实验组对应的换手率及损失函数如上面图表所示。从换手率来看,基于HAN网络的日频选股策略日频双边换手平均在6.5%左右,年化双边换手16倍。从损失函数来看,HAN的训练过程可以看到较为典型的损失函数变化形态,图中所展示的结果大约在20轮迭代以后进入稳定状态。 本小节最后我们对实验组中不同K的取值进行了测试,结果如下图所示。从结果来看K取20/30/40整体效果差别不大,说明基于HAN日频因子构建的TopK-Dropout策略对股票数量这一参数的敏感性程度较低。K取20时回测收益最高,但波动更大,最大回撤幅度更大。 HAN日频因子IC测试 将HAN网络预测所得到的每只股票上涨类别的概率视为日频因子,计算因子的IC值: 其中表示T+1日个股收益率(按开盘价计算日频收益率),表示第T日个股对应的HAN因子值。在多因子选股体系中,为验证单因子的有效性,上述因子值我们一般会进行行业市值中性处理;但受限于算力,本文计算的HAN因子限制于沪深300股票池内,因此我们不对因子值进行行业市值中性预处理。 由于HAN输出的因子值是属于上涨类别的概率,因此较少出现异常值,可以直接使用IC对因子有效性进行判断,无需秩相关系数,根据IC对因子进行评价的方法如下: 1) IC值序列均值——因子显著性; 2) IC值序列标准差——因子稳定性; 3) IC_IR(IC值序列均值与标准差的比值)——因子有效性; 4) IC值序列大于零的占比——因子作用方向是否稳定。 从单因子IC的角度来看实验组的因子有效性也强于其余对照组,词注意力模块的缺失对因子有效性影响较小;新闻注意力与日期注意力模块的缺失对因子有效性影响较大。实验组日频IC均值为0.0154,IC_IR为0.1260;从因子IC的角度来看即使是实验组的有效性也不能称之为很强(一般认为IC_IR大于0.5是有效因子),一方面或许提示我们网络结构的设计仍有改进空间;但另一方面从下文的分析可以看出,HAN日频因子的IC_IR不高可能是由于非多头端的相关性不强造成的。 HAN日频因子分层测试 分层测试是单因子有效性检验的另一手段,本小节我们对单因子进行有效性检验。分层回测的方式为:按每日的因子值将沪深300股票池内股票分为5层,统计各层日频按开盘价计算的收益率的均值作为该层当日收益,在时间序列上对日频收益进行累乘得到该层的回测净值。 从分层回测的结果可以看到,HAN实验组日频因子的多头侧收益非常明显,长期来看相对基准净值较为稳健;后面四层虽然单调性不如第一层,但整体可以看出区分度。结合上一小节对IC值的分析,我们不难发现HAN实验组日频因子的IC值不高主要是来自于非多头端的分层效果比较一般:回顾HAN日频因子的构建流程,我们是对每只股票过去10个自然日的新闻舆情进行分析,实际上模型比较关注的应当是新闻舆情覆盖度比较高的那些股票,而尾部的股票可能过去10个自然日相关的舆情数量很少,导致模型难以区分开,也属合理,这并不妨碍我们利用HAN日频因子的多头端收益贡献。 注意力分析 最后我们对模型训练当中的注意力实际结果进行分析展示,对注意力系数进行分析可以更为直观地看到HAN模型对文本是如何进行思考的,帮助我们了解当前网络结构设计的不合理之处,便于后续改进。 词注意力系数 下图展示词注意力模块部分样本的注意力系数,颜色越靠近红色表示网络赋予的注意力越高,颜色越靠近深蓝色表示网络赋予的注意力越低;我们选取了三组样本进行展示,如下图所示,其中UNK(Unknown Word)表示超出词域的词语: 从上述示例样本我们可以总结出以下三点结论: 1. 模型对于那些具有实际意义的词语会赋予较高的权重,例如示例1中的“符合”、“加速”、“助力”等词语、示例2中的“打破”、“利好”等词语及示例3中的“看好”、“认为”等词语,而这些词语确实对判断对应文本的情感倾向有较重要的作用; 2. 模型对于专有名词赋予的注意力较低,例如示例1中的“多晶硅”、示例2中的“华宝”等词语,而这些词语单个出现时也确实对情感判断影响不大; 3. 最后我们需要指出模型的缺点:可以看到示例3中模型给予“景气”、“回暖”等词较低的权重,而“回暖”上文为“有望”,“景气”上文为“高”,按常规经验应当会给予这样一些词较高的权重,我们推测可能的原因在于Embedding词向量编码时我们并未使用金融语料库,而是较为泛用的中文语料库,可能导致模型对“景气”、“回暖”等金融领域的专用词语关注度不足。 新闻注意力系数 下图展示新闻注意力模块部分样本的注意力系数,由于我们设置的每日最大新闻数量为5条,因此下图中展示的新闻注意力分配将在至多5条新闻上,不足5条的代表当天的新闻数量不足;颜色越靠近红色表示网络赋予的注意力越高,颜色越靠近深蓝色表示网络赋予的注意力越低 从上述结果我们可以总结出以下几点结论: 1. 模型对突发事件的描述性新闻赋予的注意力比较高,例如示例样本1中的航空股突发事件的两条相关新闻注意力高于其余两条,可能是由于这类新闻具有较高的时效性; 2. 模型对个股描述类的新闻会赋予更高的注意力,例如示例样本3中对第个股的描述新闻更为关注,而点评类的新闻如第一和第二条样本,可能由于是对相关行业进行的点评,与个股的即时性联系并不是特别强,因此赋予了较低的权重。 时序注意力系数 最后我们展示时序注意力系数。下图为2016-2018训练期的样本内模型在过去10个自然日时序水平上的注意力取值,我们随机采样了500条样本分别对这10个自然日的注意力系数计算均值。T-10表示前10个自然日,T-1表示前1个自然日,从结果来看时间越近的新闻平均赋予的注意力水平越高;时间越远的新闻平均赋予的注意力水平越低,与我们预期的较为符合。 但值得说明的是,可以看到前10个自然日的注意力系数没有体现出很大的差别,只在10%的水平上下浮动,说明模型对过去10个自然日的注意力分配也并没有特别集中在更近的自然日,也许意味着模型网络的设计仍然存在进一步提升的空间。 总结与展望 本文通过深度学习中的注意力机制技术来模仿人类学习新闻舆情时的“顺序内容依赖”和“多样化影响”,构建起对个股同一日多条新闻、不同自然日不同新闻进行文本挖掘从而预测个股短时走势的HAN网络,近年来在沪深300成分股内具有较为优秀的选股效果。HAN网络主要依赖三组注意力模块对人类学习新闻舆情的过程进行模拟: 1. 词语注意力机制:词语注意力机制模仿人类在阅读单条新闻时对不同单词赋予不同关注度的过程,人类在阅读单条新闻时大脑会将注意力集中于那些含有关键信息的词语,通过对少数关键词的重点理解来解读整句话的含义。词语注意力机制希望模仿这种学习方式,给予关键词的编码向量更高的权重,从而更为准确地解读整条新闻的正负向情感。 2. 新闻注意力机制:新闻注意力机制模仿人类在阅读多条新闻时对不同新闻赋予不同关注度的过程,不同的新闻蕴含的信息量不同,例如分析师点评类的舆情比市场表现描述类的舆情具有更高的未来信息含量,因此前者可能更容易引起我们的注意。新闻注意力机制希望模仿这种学习方式,给予信息含量更高的新闻以更高的权重,从而在众多新闻中抓住个股未来表现的关键影响因素。 3. 时序注意力机制:时序注意力机制模仿人类在阅读不同自然日的新闻时赋予不同关注度的过程,例如距离时间越远的新闻有效性越弱,距离时间越近的新闻有效性越强,或者某个自然日的新闻重要性程度远超其余自然日,此时人们更可能将注意力集中于近期发生的关键新闻舆情上。时序注意力机制希望模仿这种学习方式,给予不同日期的舆情以不同的权重,重点关注那些具有关键影响日期的新闻。 我们对上述三组注意力机制进行了数据实证,结果表明在三组注意力机制都存在的情况下,HAN网络确实可以构建出较为优秀的选股策略,HAN日频因子多头端收益较为明显。同时为验证注意力机制的必要性,我们也进行了三组对照试验,结果表明词注意力机制的缺失对最终结果影响较小,新闻注意力和时序注意力的缺失对最终结果影响较大。 最后我们对三组注意力机制模块的具体实验数据结果进行了讨论,总体而言三个注意力模块中注意力确实在一定程度上呈现出了我们所预期的效果,例如词注意力模块对于信噪比更高的词会给予更高的权重,新闻注意力模块对于个股直接相关的新闻会给予更高的权重,时序注意力模块对于更近的新闻会给予更高的权重。但也值得注意的是,部分注意力仍然存在不合预期之处,例如时序注意力分配在过去10天的注意力从绝对值来看并没有太大的差别,或提示我们HAN网络仍有提升空间。 本文作为注意力机制应用于新闻舆情分析的初探报告,仍然存在许多不足之处,例如: 1. 本文参考的原论文在训练HAN时表明自步学习(Self-paced Learning)可以有效地提升模型的表现。自步学习的大体思想是模仿人类在学习过程中由易到难的学习过程,在学习的初始阶段跳过较难学习的样本,关注较容易学习的样本;在学习一段时间后再引入较难学习的样本,本文对此暂未实现; 2. 原论文的发表时间为2017年,彼时NLP中的经典模型BERT还未被提出,因此HAN网络的第一层除了Word2Vec模型以外并未进行更复杂的编码,虽然本文第一层增加了词注意力模块,但提升效果仍然有限,因此可以考虑尝试在新闻注意力模块之前增加BERT模块对输入词向量再进行编码; 3. 虽然我们证明了HAN多头端确实具有明显正向收益,但目前仍未构建起投资机构可操作的多头策略,因此如果将多头alpha利用起来仍然值得深入挖掘。 参考文献 Hu, Ziniu, et al. "Listening to chaotic whispers: A deep learning framework for news-oriented stock trend prediction." Proceedings of the eleventh ACM international conference on web search and data mining. 2018. 风险提示 通过深度学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。 免责声明与评级说明 公众平台免责申明 本公众平台不是华泰证券研究所官方订阅平台。相关观点或信息请以华泰证券官方公众平台为准。根据《证券期货投资者适当性管理办法》的相关要求,本公众号内容仅面向华泰证券客户中的专业投资者,请勿对本公众号内容进行任何形式的转发。若您并非华泰证券客户中的专业投资者,请取消关注本公众号,不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限,若给您造成不便,烦请谅解!本公众号旨在沟通研究信息,交流研究经验,华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号研究报告有关内容摘编自已经发布的研究报告的,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。如需了解详细内容,请具体参见华泰证券所发布的完整版报告。 本公众号内容基于作者认为可靠的、已公开的信息编制,但作者对该等信息的准确性及完整性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对客户私人投资建议。订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。普通投资者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券股份有限公司所有,未经公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。 华泰金工深度报告一览 金融周期系列研究(资产配置) 【华泰金工林晓明团队】2020年中国市场量化资产配置年度观点——周期归来、机会重生,顾短也兼长20200121 【华泰金工林晓明团队】量化资产配置2020年度观点——小周期争明日,大周期赢未来20200116 【华泰金工林晓明团队】风险预算模型如何度量风险更有效-改进风险度量方式稳定提升风险模型表现的方法 【华泰金工林晓明团队】周期双底存不确定性宜防守待趋势——短周期底部拐头机会渐增,待趋势明朗把握或更大20191022 【华泰金工林晓明团队】二十年一轮回的黄金投资大周期——黄金的三周期定价逻辑与组合配置、投资机会分析20190826 【华泰金工林晓明团队】如何有效判断真正的周期拐点?——定量测度实际周期长度提升市场拐点判准概率 【华泰金工林晓明团队】基钦周期的长度会缩短吗?——20190506 【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(下) 【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(上) 【华泰金工林晓明团队】周期轮动下的BL资产配置策略 【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究 【华泰金工林晓明团队】市场拐点的判断方法 【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告(上) 【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(四)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(三)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(二)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(一)——华泰金工周期系列研究 【华泰金工林晓明团队】华泰金工周期研究系列 · 基于DDM模型的板块轮动探索 【华泰金工林晓明团队】市场周期的量化分解 【华泰金工林晓明团队】周期研究对大类资产的预测观点 【华泰金工林晓明团队】金融经济系统周期的确定(下)——华泰金工周期系列研究 【华泰金工林晓明团队】金融经济系统周期的确定(上)——华泰金工周期系列研究 【华泰金工林晓明团队】全球多市场择时配置初探——华泰周期择时研究系列 行业指数频谱分析及配置模型:市场的周期分析系列之三 【华泰金工林晓明团队】市场的频率——市场轮回,周期重生 【华泰金工林晓明团队】市场的轮回——金融市场周期与经济周期关系初探 周期起源 【华泰金工林晓明团队】金融经济周期的耗散结构观——华泰周期起源系列研究之十 【华泰金工林晓明团队】经济系统中有序市场结构的进化——华泰周期起源系列研究报告之九 【华泰金工林晓明团队】企业间力的产生、传播和作用效果——华泰周期起源系列研究之八 【华泰金工林晓明团队】耦合振子同步的藏本模型——华泰周期起源系列研究之七 【华泰金工林晓明团队】周期在供应链管理模型的实证——华泰周期起源系列研究之六 【华泰金工林晓明团队】不确定性与缓冲机制——华泰周期起源系列研究报告之五 【华泰金工林晓明团队】周期是矛盾双方稳定共存的结果——华泰周期起源系列研究之四 【华泰金工林晓明团队】周期是不确定性条件下的稳态——华泰周期起源系列研究之三 【华泰金工林晓明团队】周期趋同现象的动力学系统模型——华泰周期起源系列研究之二 【华泰金工林晓明团队】从微观同步到宏观周期——华泰周期起源系列研究报告之一 FOF与金融创新产品 【华泰金工林晓明团队】养老目标基金的中国市场开发流程--目标日期基金与目标风险基金产品设计研究 【华泰金工】生命周期基金Glide Path开发实例——华泰FOF与金融创新产品系列研究报告之一 因子周期(因子择时) 【华泰金工林晓明团队】市值因子收益与经济结构的关系——华泰因子周期研究系列之三 【华泰金工林晓明团队】周期视角下的因子投资时钟--华泰因子周期研究系列之二 【华泰金工林晓明团队】因子收益率的周期性研究初探 择时 【华泰金工林晓明团队】波动率与换手率构造牛熊指标——华泰金工量化择时系列 【华泰金工林晓明团队】A股市场低开现象研究 【华泰金工林晓明团队】华泰风险收益一致性择时模型 【华泰金工林晓明团队】技术指标与周期量价择时模型的结合 【华泰金工林晓明团队】华泰价量择时模型——市场周期在择时领域的应用 中观基本面轮动 【华泰金工林晓明团队】行业配置落地:指数增强篇——华泰中观基本面轮动系列之十 【华泰金工林晓明团队】行业配置策略:拥挤度视角——华泰中观基本面轮动系列之九 【华泰金工林晓明团队】行业配置策略:景气度视角——华泰中观基本面轮动系列之八 【华泰金工林晓明团队】行业配置策略:趋势追踪视角——华泰中观基本面轮动系列之七 【华泰金工林晓明团队】行业配置策略:宏观因子视角——华泰中观基本面轮动系列之六 【华泰金工林晓明团队】行业全景画像:投入产出表视角——华泰中观基本面轮动系列之五 【华泰金工林晓明团队】行业全景画像:改进杜邦拆解视角——华泰中观基本面轮动系列之四 【华泰金工林晓明团队】行业全景画像:风格因子视角 ——华泰中观基本面轮动系列之三 【华泰金工林晓明团队】行业全景画像:宏观因子视角 ——华泰中观基本面轮动系列之二 【华泰金工林晓明团队】确立研究对象:行业拆分与聚类——华泰中观基本面轮动系列之一 行业轮动 【华泰金工林晓明团队】不同协方差估计方法对比分析(二)——华泰行业轮动系列报告之十三 【华泰金工林晓明团队】拥挤度指标在行业配置中的应用——华泰行业轮动系列报告之十二 【华泰金工林晓明团队】基于投入产出表的产业链分析 ——华泰行业轮动系列报告之十一 【华泰金工林晓明团队】不同协方差估计方法对比分析——华泰行业轮动系列报告之十 【华泰金工林晓明团队】景气度指标在行业配置中的应用——华泰行业轮动系列报告之九 【华泰金工林晓明团队】再探周期视角下的资产轮动——华泰行业轮动系列报告之八 【华泰金工林晓明团队】“华泰周期轮动”基金组合改进版——华泰行业轮动系列报告之七 【华泰金工林晓明团队】“华泰周期轮动”基金组合构建——华泰行业轮动系列之六 【华泰金工林晓明团队】估值因子在行业配置中的应用——华泰行业轮动系列报告之五 【华泰金工林晓明团队】动量增强因子在行业配置中的应用——华泰行业轮动系列报告之四 【华泰金工林晓明团队】财务质量因子在行业配置中的应用——华泰行业轮动系列报告之三 【华泰金工林晓明团队】周期视角下的行业轮动实证分析——华泰行业轮动系列之二 【华泰金工林晓明团队】基于通用回归模型的行业轮动策略——华泰行业轮动系列之一 Smartbeta 【华泰金工林晓明团队】重剑无锋:低波动 Smart Beta——华泰 Smart Beta 系列之四 【华泰金工林晓明团队】投资优质股票:红利类Smart Beta——华泰Smart Beta系列之三 【华泰金工林晓明团队】博观约取:价值和成长Smart Beta——华泰Smart Beta系列之二 【华泰金工林晓明团队】Smart Beta:乘风破浪趁此时——华泰Smart Beta系列之一 【华泰金工林晓明团队】Smartbeta在资产配置中的优势——华泰金工Smartbeta专题研究之一 多因子选股 【华泰金工林晓明团队】华泰单因子测试之历史分位数因子——华泰多因子系列之十三 【华泰金工林晓明团队】桑土之防:结构化多因子风险模型——华泰多因子系列之十二 【华泰金工林晓明团队】华泰单因子测试之海量技术因子——华泰多因子系列之十一 【华泰金工林晓明团队】因子合成方法实证分析 ——华泰多因子系列之十 【华泰金工林晓明团队】华泰单因子测试之一致预期因子 ——华泰多因子系列之九 【华泰金工林晓明团队】华泰单因子测试之财务质量因子——华泰多因子系列之八 【华泰金工林晓明团队】华泰单因子测试之资金流向因子——华泰多因子系列之七 【华泰金工林晓明团队】华泰单因子测试之波动率类因子——华泰多因子系列之六 【华泰金工林晓明团队】华泰单因子测试之换手率类因子——华泰多因子系列之五 【华泰金工林晓明团队】华泰单因子测试之动量类因子——华泰多因子系列之四 【华泰金工林晓明团队】华泰单因子测试之成长类因子——华泰多因子系列之三 【华泰金工林晓明团队】华泰单因子测试之估值类因子——华泰多因子系列之二 【华泰金工林晓明团队】华泰多因子模型体系初探——华泰多因子系列之一 【华泰金工林晓明团队】五因子模型A股实证研究 【华泰金工林晓明团队】红利因子的有效性研究——华泰红利指数与红利因子系列研究报告之二 人工智能 【华泰金工林晓明团队】基于遗传规划的一致预期因子挖掘——华泰人工智能系列之54 【华泰金工林晓明团队】文本PEAD选股策略——华泰人工智能系列之五十一 【华泰金工林晓明团队】SinGAN 单样本生成——人工智能系列之四十九 【华泰金工林晓明团队】对抗过拟合:cGAN应用于策略调参——人工智能系列之四十八 【华泰金工林晓明团队】cGAN模拟宏观指标——人工智能系列之四十七 【华泰金工林晓明团队】AlphaNet改进:结构和损失函数——华泰人工智能系列之四十六 【华泰金工林晓明团队】cGAN应用于资产配置——华泰人工智能系列之四十五 【华泰金工林晓明团队】因子观点融入机器学习——华泰人工智能系列之四十五 【华泰金工林晓明团队】深度卷积GAN实证——华泰人工智能系列之四十四 【华泰金工林晓明团队】因子观点融入机器学习——华泰人工智能系列之四十三 【华泰金工林晓明团队】图神经网络选股与Qlib实践——华泰人工智能系列之四十二 【华泰金工林晓明团队】基于BERT的分析师研报情感因子——华泰人工智能系列之四十一 【华泰金工林晓明团队】微软AI量化投资平台Qlib体验——华泰人工智能系列之四十 【华泰金工林晓明团队】周频量价选股模型的组合优化实证——华泰人工智能系列之三十九 【华泰金工林晓明团队】WGAN生成:从单资产到多资产——华泰人工智能系列之三十八 【华泰金工林晓明团队】舆情因子和BERT情感分类模型——华泰人工智能系列之三十七 【华泰金工林晓明团队】相对生成对抗网络RGAN实证——华泰人工智能系列之三十六 【华泰金工林晓明团队】WGAN应用于金融时间序列生成——华泰人工智能系列之三十五 【华泰金工林晓明团队】再探AlphaNet:结构和特征优化——华泰人工智能系列之三十四 【华泰金工林晓明团队】数据模式探索:无监督学习案例——华泰人工智能系列之三十三 【华泰金工林晓明团队】AlphaNet:因子挖掘神经网络——华泰人工智能系列之三十二 【华泰金工林晓明团队】生成对抗网络GAN初探——华泰人工智能系列之三十一 【华泰金工林晓明团队】从关联到逻辑:因果推断初探——华泰人工智能系列之三十 【华泰金工林晓明团队】另类标签和集成学习——华泰人工智能系列之二十九 【华泰金工林晓明团队】基于量价的人工智能选股体系概览——华泰人工智能系列之二十八 【华泰金工林晓明团队】揭开机器学习模型的“黑箱” ——华泰人工智能系列之二十七 【华泰金工林晓明团队】遗传规划在CTA信号挖掘中的应用——华泰人工智能系列之二十六 【华泰金工林晓明团队】市场弱有效性检验与择时战场选择——华泰人工智能系列之二十五 【华泰金工林晓明团队】投石问路:技术分析可靠否?——华泰人工智能系列之二十四 【华泰金工林晓明团队】再探基于遗传规划的选股因子挖掘——华泰人工智能系列之二十三 【华泰金工林晓明团队】基于CSCV框架的回测过拟合概率——华泰人工智能系列之二十二 【华泰金工林晓明团队】基于遗传规划的选股因子挖掘——华泰人工智能系列之二十一 【华泰金工林晓明团队】必然中的偶然:机器学习中的随机数——华泰人工智能系列之二十 【华泰金工林晓明团队】偶然中的必然:重采样技术检验过拟合——华泰人工智能系列之十九 【华泰金工林晓明团队】机器学习选股模型的调仓频率实证——华泰人工智能系列之十八 【华泰金工林晓明团队】人工智能选股之数据标注方法实证——华泰人工智能系列之十七 【华泰金工林晓明团队】再论时序交叉验证对抗过拟合——华泰人工智能系列之十六 【华泰金工林晓明团队】人工智能选股之卷积神经网络——华泰人工智能系列之十五 【华泰金工林晓明团队】对抗过拟合:从时序交叉验证谈起 【华泰金工林晓明团队】人工智能选股之损失函数的改进——华泰人工智能系列之十三 【华泰金工林晓明团队】人工智能选股之特征选择——华泰人工智能系列之十二 【华泰金工林晓明团队】人工智能选股之Stacking集成学习——华泰人工智能系列之十一 【华泰金工林晓明团队】宏观周期指标应用于随机森林选股——华泰人工智能系列之十 【华泰金工林晓明团队】人工智能选股之循环神经网络——华泰人工智能系列之九 【华泰金工林晓明团队】人工智能选股之全连接神经网络——华泰人工智能系列之八 【华泰金工林晓明团队】人工智能选股之Python实战——华泰人工智能系列之七 【华泰金工林晓明团队】人工智能选股之Boosting模型——华泰人工智能系列之六 【华泰金工林晓明团队】人工智能选股之随机森林模型——华泰人工智能系列之五 【华泰金工林晓明团队】人工智能选股之朴素贝叶斯模型——华泰人工智能系列之四 【华泰金工林晓明团队】人工智能选股之支持向量机模型— —华泰人工智能系列之三 【华泰金工林晓明团队】人工智能选股之广义线性模型——华泰人工智能系列之二 指数增强基金分析 【华泰金工林晓明团队】再探回归法测算基金持股仓位——华泰基金仓位分析专题报告 【华泰金工林晓明团队】酌古御今:指数增强基金收益分析 【华泰金工林晓明团队】基于回归法的基金持股仓位测算 【华泰金工林晓明团队】指数增强方法汇总及实例——量化多因子指数增强策略实证 基本面选股 【华泰金工林晓明团队】华泰价值选股之相对市盈率港股模型——相对市盈率港股通模型实证研究 【华泰金工林晓明团队】华泰价值选股之FFScore模型 【华泰金工林晓明团队】相对市盈率选股模型A股市场实证研究 【华泰金工林晓明团队】华泰价值选股之现金流因子研究——现金流因子选股策略实证研究 【华泰金工林晓明团队】华泰基本面选股之低市收率模型——小费雪选股法 A 股实证研究 【华泰金工林晓明团队】华泰基本面选股之高股息率模型之奥轩尼斯选股法A股实证研究 基金定投 【华泰金工林晓明团队】大成旗下基金2018定投策略研究 【华泰金工林晓明团队】布林带与股息率择时定投模型——基金定投系列专题研究报告之四 【华泰金工林晓明团队】基金定投3—马科维茨有效性检验 【华泰金工林晓明团队】基金定投2—投资标的与时机的选择方法 【华泰金工林晓明团队】基金定投1—分析方法与理论基础 基金评价 【华泰金工林晓明团队】基金评价及筛选全流程研究框架——股票型与债券型基金多种维度定量与定性评价法 【华泰金工林晓明团队】基金选股择时能力的定量分析法——我国公募基金大多具有较强选股能力 【华泰金工林晓明团队】基金业绩持续性的规律与策略构建——采用有效影响因子筛选出持续性较好的绩优基金 ETF季度盘点 【华泰金工林晓明团队】2021Q2中国ETF市场盘点回顾 【华泰金工林晓明团队】2021Q1中国ETF市场盘点回顾 【华泰金工林晓明团队】2020Q4中国ETF市场全景回顾——总规模创新高,行业主题类ETF渐成市场新主角20210112 【华泰金工林晓明团队】2020年三季度中国ETF市场回顾——产品百花齐放、投资者结构日渐成熟,规模创新高20201021 【华泰金工林晓明团队】ETF产品细分差异化或成突围之道——2020二季度中国ETF市场全景回顾盘点与展望20200803 【华泰金工林晓明团队】ETF规模数量大涨品类不断丰富——2020一季度中国ETF市场全景回顾盘点 其它 【华泰金工林晓明团队】A股市场及行业的农历月份效应——月份效应之二 A股市场及行业的月份效应——详解历史数据中的隐藏法则
林晓明 S0570516010001 SFC No.BPY4211 研究员 李子钰 S0570519110003 SFC No.BRV743 研究员 何 康 S0570520080004 SFC No.BRB318 研究员 陈伟 S0570121070169 联系人 报告发布时间:2022年4月23日 摘要 人工智能56:使用混合注意力网络对个股的多条舆情进行挖掘 本文通过注意力机制来模仿人类学习新闻舆情时的“顺序内容依赖”和“多样化影响”,构建起对个股同一日多条新闻、不同自然日不同新闻进行文本挖掘从而预测个股短时走势的混合注意力机制网络HAN(Hybrid Attention Networks),在沪深300股票池内构建的TopK-Dropout策略具有较为明显的多头端收益,对训练后模型的注意力系数进行分析表明各模块的注意力机制可以较好地聚焦于个股的重点舆情,与预期较为一致。 HAN网络设置三组注意力模块:词语注意力、新闻注意力和时序注意力 HAN网络主要通过三组注意力模块来模仿人类学习新闻舆情的过程。词语注意力是指人类在浏览文字时聚焦于某些关键的词语和语句,抽象出重要的信息,形成对文本的理解;新闻注意力是指人类在阅读多条新闻时由于新闻蕴含的信息差异从而赋予不同的关注度;时序注意力是指人们根据新闻重要性和时效性的日间差异,为不同日期分配关注度。三组注意力都以神经网络权重的形式体现,最终赋予那些对股价影响更大的新闻以更高的权重系数。 在沪深300股票池内进行数据实证,HAN多头端收益明显 以沪深300指数成分股为股票池进行数据实证,每条样本设置为个股过去10个自然日的舆情,每个自然日设置舆情上限为5条,预测个股未来一个交易日的涨跌。以样本外预测得到属于上涨类别的概率作为HAN日频因子,并构建30只股票等权持有的组合,每天根据HAN日频因子值替换1只股票,该策略相对沪深300等权的年化超额为15.96%,回测期20190103-20220331,分层回测表明HAN日频因子多头端收益较为明显。 设置多组对照试验验证注意力机制的有效性 为验证注意力机制的有效性,采取空白对照的方式对比了四组实验的结果。 结果表明注意力机制的有无对最终结果有较大影响,有注意力模块的网络选股效果明显要好于无注意力模块的网络;不同模块注意力机制影响不同,词注意力模块的缺失对选股结果影响相对较小,去除词注意力模块以后年化收益与年化超额收益大约削减2%左右;新闻注意力与时序注意力的缺失对选股结果影响较大。 对注意力系数进行可解释性分析,整体与预期相符,但仍存提升空间 分析各个模块的注意力系数,发现词注意力模块中模型会对有实际含义的词赋予较高的注意力,对专有名词赋予较低的注意力;新闻注意力中模型会对与个股直接相关的新闻赋予较高的注意力,对行业/宏观的新闻赋予较低的注意力;时序注意力模块中会对较近期的新闻赋予较高的注意力。整体来看注意力系数的分析具有一定的逻辑,与我们的预期较为符合。 研究背景 另类数据是指传统的价量、财务数据以外,能够为投资者提供增量信息的数据,比如新闻舆情、分析师研报、上市公司ESG数据等。与传统数据的最大区别在于,另类数据大多非结构化、来源多样,且数据源的收集较为困难。人工智能方法是对另类数据进行分析的有效手段,华泰金工人工智能系列已经有三篇对另类数据挖掘的相关研究,分别为《人工智能37:舆情因子和BERT情感分类模型》(20201022)、《人工智能41:基于BERT的分析师研报情感因子》(20210118)及《人工智能51:文本PEAD选股策略》(20220107),分别对舆情文本和分析师研报文本进行了不同角度的挖掘,本文是文本挖掘的第四篇报告。 传统对于新闻舆情的挖掘大多停留在单条文本的处理,例如我们在文本PEAD选股策略的构建过程当中对每位分析师的业绩点评进行单独处理,而没有考虑到不同分析师的观点可能带来的不同影响以及如何整合不同的观点。这与我们阅读分析师点评的直观经验不相符:大多数情况下我们会阅读不同分析师、不同时间的点评,并认为某些点评是重要的而某些点评相对不那么重要,以此形成对个股的整体理解。 新闻舆情的解读与此类似,某段时间内与同一只个股相关的所有新闻中,并非所有新闻都有关键性影响,例如投资者对于新闻发布的市场当天涨跌幅数据并不那么关注,因为他们从行情软件中早已获知相关信息且该信息只能表征过去,但投资者会格外关注分析师对个股的解读以及后市观点,此类高信噪比的新闻对其接下来的投资行为可能具有决定性影响。 如何描述这种不同重要性程度所带来的对个股的不同影响?或许深度学习中的注意力机制为我们提供了一种可能的解决方案。本文通过注意力机制技术来模仿人类学习新闻舆情时的“顺序内容依赖”和“多样化影响”,构建起对个股同一日多条新闻、不同自然日不同新闻进行文本挖掘从而预测个股短时走势的混合注意力机制网络HAN(Hybrid Attention Networks),在沪深300股票池内具有较为显著的多头收益。本文将主要围绕以下几个部分展开: 1. HAN网络结构,重点对其中的注意力模块进行解读; 2. HAN应用于A股市场的实证,在沪深300股票池内对HAN日频因子进行有效性分析,尝试构建有效的选股策略; 3. 对不同模块的注意力机制进行空白对照实验; 4. 对不同模块的注意力机制进行解读。 HAN混合注意力机制网络原理 模型思想 面对纷繁复杂的股票新闻舆情,人们会根据顺序内容依赖(Sequential Context Dependency)和多样化影响(Diverse Influence)两个原则,形成对股票趋势的认知。第一,由于单一新闻蕴含的信息并不充足,人们往往会详尽地阅读近期与某家公司相关的所有新闻,进行更为可信的价格趋势预测,这就是顺序内容依赖。第二,不同新闻甚至不同词语提供的信息不尽相同,造成对股票预测的“多样化影响”。例如,相比于简单陈述过去市场表现,知名分析师对未来趋势的点评会显得更有参考价值;“定增”、“中标”、“减持”、“预增”等高信噪比词语比“的”、“与”、“晚间”等低信噪比词语更能吸引投资者的注意。 Ziniu Hu等(2017)提出的混合注意力机制网络(Hybrid Attention Networks, HAN)可以模仿人类认知新闻的这两大原则对新闻舆情进行学习。为了模拟多样化影响,HAN在网络结构的前半部分引入了词语和新闻层面的注意力机制,对不同的词语和新闻赋予相应的权重,由网络自动学习权重分配,更有效地根据不同新闻的有效性来提取新闻文本中的信息。为了形成顺序内容依赖,HAN在网络结构的后半部分运用了双向循环神经网络BiGRU,适用于处理新闻时间序列数据,并进一步通过时间层面的注意力机制,对每个日期的新闻赋予不同的权重,从而实现对所有数据的整合,最终输出对股票趋势的预测。接下来我们将详细介绍HAN网络的原理及其中蕴含的思想。 模型结构 HAN模型的原始完整结构如图表1所示,包括词嵌入(Word Embedding)、词语注意力机制、新闻注意力机制、双向门控循环单元(BiGRU)、时间注意力机制及多层感知机(MLP)。值得一提的是,原论文中只有新闻和时间层次的注意力机制,但我们认为不同词语在新闻解读的过程中重要性也是千差万别的,因此增加了词语层次的注意力机制,如图表2所示。我们将对网络的各个模块进行解读。 首先界定本文的任务目标:作为混合注意力机制网络的初探报告,我们借鉴了原论文的做法,以日频股票涨跌作为HAN网络的预测标签。对于第t个交易日的股票S,我们想要利用过去N个自然日中与该股票相关的新闻[Ct-N, Ct-N+1, ... , Ct-1]来预测该股票的t~t+1日收益,该收益可以用日频开盘价或成交均价来衡量。假设每个自然日与股票S有关的新闻有L则,Ct = [nt1, nt2, ... , ntL];每则新闻有M个词语,nti = [wi1, wi2, ... , wiM]。 词嵌入 作为非结构化数据,新闻文本需要经过一定的预处理,才能输入神经网络模型。最简单的处理是one-hot编码,向量的每个维度对应一个词语,比如“华泰证券”可以表示为[[1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]]。这样的不足是,如果想要覆盖所有的词汇,向量的维度将特别大,占据较高存储空间,且难以表征词语之间的相似性。词嵌入是一种更好的向量化方式,它基于文本中的上下文位置进行训练,既能构建出更低维度的向量,也能保留词语之间的相似性。 常见的词嵌入方法有Skip-gram和CBOW,它们的基本思想是:词汇表中的每个词语可以表示为固定维度的向量;有大量的文本作为预训练语料;文本中的每个位置t上,有一个中心词语c和上下文词语o;根据词向量,计算c和o的相似度,得到给定c条件下o出现的概率(Skip-gram),或者给定o条件下c出现的概率(CBOW);不断调整词向量,使得概率最大化。 下面以Skip-gram为例,介绍算法的原理。对于中心词语和上下文词语,各有一套词向量化的方式v和u,比如中心词语c可表示为向量vc,上下文词语o可表示为向量uo。给定c条件下o出现的概率为 目标函数Jθ 定义为 概率L(θ)最大化,即目标函数J(θ)最小化。可通过梯度下降法或随机梯度下降法等方法迭代,获得最优的词向量参数。 在实际操作中,我们首先借助Python中的jieba库,将段落切分成有意义的汉字和词语。比如,“中国铁建财务公司落地首笔国债逆回购”切分后变为“中国|铁建|财务|公司|落地|首笔|国债|逆|回购”;之后,利用北京师范大学和中国人民大学研究者开源的中文预训练词向量Chinese-Word-Vectors,将切分的每个词语转化为300维的向量。 为了检验预训练词向量能否反映词语之间的相似性,我们做了一些测试。首先,根据词向量的余弦值可以计算词语之间的相似度,从而挑选出与测试词语最为接近的词语。比如,输入“复旦大学”,会发现“北京大学”、“南京大学”、“武汉大学”、“上海交通大学”是最为相似的词语,其中“北京大学”和“复旦大学”相似度为0.63;输入“广州市”,会出现“天河区”、“越秀区”、“番禺区”、“花都区”、“海珠区”等广州市内的县级行政区划,其中“天河区”与“广州市”的相似度可达0.74。另外,通过主成分分析(PCA)对词向量进行降维处理,可以用二维散点图直观地反映词语之间的关系。比如,“清华大学”、“北京大学”、“浙江大学”在散点图中的位置非常接近,说明这三个词语含义较为相近,类似的还有“北京”、“上海”、“广州”,以及“华泰”、“中信”、“中金”。通过这两个简单的测试,我们发现预训练词向量能够较好地表示词语的实际含义。 词语注意力机制 人类在浏览文字时,往往不是按部就班地逐字阅读,而是会聚焦在一些关键的词语和语句上,抽象出重要的信息,形成对文本的理解。借鉴人类的阅读行为,2015年Dzmitry Bahdanau等人对传统的encoder-decoder模型加以改进,提出了注意力机制,有效提升了机器翻译的性能。模型结构如下图所示,其核心在于使用注意力机制构建了语境向量ci: 其中,hj表示词语的注解,αij表示hj在构建语境向量ci中的权重。αij的确定需要两个步骤,首先是根据decoder中前一时刻的隐状态si-1及encoder中的隐状态hj,通过对齐模型a计算得到eij,再由eij进行softmax处理后得到αij。对齐模型是指,翻译前后的文本一般不是等长的,所以需要一个模型来对齐文本,原文中运用的对齐模型本质上也是一个前馈神经网络,能够刻画encoder第j个输入与decoder第i个输出的匹配程度,并与整个翻译模型中的其他参数联合训练。 新闻注意力机制 考虑到不同新闻在预测股票趋势中的差异化影响,HAN也加入了新闻注意力机制。每则新闻ni,通过一层神经网络得到注意力值vi,使用softmax标准化后得到新闻的注意力权重αi,最后加权平均得到日期向量d,代表某一天中所有新闻的信息。具体的数学公式如下: 双向门控循环单元 循环神经网络R NN 是时间序列建模的经典模型,但 标准 RNN 在应用中会遇到梯度消失的问题,难以记忆长期的信息。长短期记忆网络( LSTM )和门控循环单元 GRU )可以利用门控机制来保留长期信息,解决梯度消失问题。其中, GRU 结构更为简单,参数量更少,且 能在语音识别等任务中与 LSTM 表现同样出色。 值得注意的是,这里的未来信息是相对于过去而言的,比如使用前10天的新闻预测第11天到12天股价的涨跌,那么第5天的新闻处理是可以利用第1天和第10天的信息的,在股价预测上并不会造成未来数据的问题。 时间注意力机制 HAN同样使用注意力机制,反映不同时间的新闻在股票预测中的差异化影响。BiGRU输出的每日信息hi,通过一层神经网络得到注意力值oi,使用softmax标准化后得到日期的注意力权重βi,最后加权平均得到V。具体的数学公式如下: 多层感知机 经过词嵌入、循环神经网络和一系列的注意力机制,输出V可以表征股票S过去N个自然日的新闻舆情信息,接下来再通过判别网络层(三层全连接网络结构),最后输出对未来股票趋势的预测——上涨、下跌或平稳。 HAN网络选股实证 本章应用HAN网络在A股市场进行新闻舆情分析选股的实证,主要探究两个目标:HAN网络选股是否有效以及不同模块的注意力机制对最终选股结果的影响。我们将主要分为以下几个部分展开介绍: 1)新闻舆情数据源介绍; 2)实验组与对照组的设计; 3)对比实验结果展示; 4)注意力分析。 总体来说,基于HAN网络的舆情分析选股较为有效,且模型的注意力分配基本与我们预想的较为一致。从结果来看,Word-Level、News-Level和Temporal-Level三个模块的注意力对最终的回测结果都有较大影响,Word-Level影响较小;News-Level和Temporal-Level影响较大。 新闻舆情数据源介绍 本文数据实证部分所使用的新闻舆情数据来自于万得底库Financial_News表,该表记录了自2015年以来A股市场每日的新闻舆情数据。这里我们展示该表按OPDATE字段提取出的2017/11/3日的部分舆情数据,对其中的字段进行解读。 PUBLISHDATE字段表示该新闻的发布时间,OPDATE表示该新闻进入万得数据底库的时间。需要注意的是,存在少部分样本可能不是OPDATE当天发布的,例如上表中所展示的第一条样本是2017/10/27发布的,而该新闻直到2017/11/3才进入万得底库。从回测的角度,2017/10/27当天我们无法从底库读取到这条新闻,而如果等到2017/11/3才使用该样本,则时效性已经不满足,因此这样的样本我们都予以剔除,保证发布日期与入库日期相同。 WINDCODES字段表示该新闻涉及到的股票代码,为新闻与股票应构建联系关系的唯一标识字段;MKTSENTIMENTS表示该条新闻的情感倾向,由万得标注,大部分新闻没有情感倾向标注。TITLE与CONTENT为新闻的标题与摘要,是文本数据的具体来源,本文在对该文本进行处理时将标题与摘要拼接在一起当作每条样本的文本输入。 实验组设计:网络结构与参数设置 前文已经从理论层面详细介绍了HAN网络的结构,这里不再赘述。本章展示我们在tensorflow中搭建HAN网络时所使用的具体网络层数以及超参数设置。 本文所使用的Embedding预训练模型为北京师范大学和中国人民大学研究员开源的中文预训练词向量Chinese-Word-Vectors,将切分的每个词语转化为300维的向量,在第一章我们已经针对该预训练模型进行过一些测试,结果表明确实可以较好地衡量词语之间的相似程度,不再赘述。 这里我们展开解释训练迭代次数的选择原因:一般来说在神经网络训练时每个epoch里steps的步数是由样本总量和batch_size决定的,尽量保证每轮训练可以将全部样本遍历一次。但我们在实际训练中发现,受限于算力不足,如果每轮训练都将样本全部遍历一次大约需要6000~8000个steps,时间开销较高,因此为兼顾训练时间与模型学习效率,我们将每轮epoch的训练迭代次数固定为200个steps。这也就意味着,实际上可能存在部分样本没有参与训练。 关于模型训练中的一些细节再予以单独说明: 1. 如果某个自然日个股新闻数量为零,则当天的5条新闻都以PAD进行处理;如果当天新闻数量大于5条,则按读取顺序依次取前5条新闻; 2. 本文进行的是分类任务,即根据样本内全部样本的个股日频收益率(按开盘价计算)上下三分之一分位数作为阈值,将样本划分为上涨、震荡、下跌三个类别;使用的损失函数为交叉熵损失函数。 对照组设计:删除不同模块注意力的对比试验 HAN网络的设计围绕着注意力机制展开,因此关于注意力机制有无的对比试验是HAN网络研究绕不开的话题。本小节我们将三组注意力模块分别替换为等权求均值,在保证其他网络超参数都一致的条件下进行对比实验,使结果的比较有意义。对比试验如下图所示: 上图中标记为Weight-Sum的模块表示有注意力机制,标记为Average的模块表示注意力机制被替换为向量等权平均:以词注意力机制为例,有注意力机制表示网络结构当中会对一条新闻的200个词编码向量(200是预先设定的每条新闻的最大词语长度)生成对应的注意力权重,并加权求和得到该条新闻的编码向量;无注意力机制则直接将200个词向量编码求平均作为该条新闻的编码向量,如下图所示,其余模块对照组类似。 比试验结果展示 本小节我们展示HAN网络新闻舆情分析在A股的选股实证结果。以沪深300为股票池,每条样本的输入特征为T日过去N天的新闻序列,每天最多选取的新闻数量为L条,每条新闻的长度为W,每个单词的向量编码长度为V,关于上述参数的选择可以参考图表13。每条样本的标签为T+1日开盘价至T+2日开盘价,因此后文数据实证的调仓频率均为日频。 数据实证我们主要分为三个部分展开: 1. TopK-Dropout策略:回测开始的第一个交易日根据前一天HAN预测出的股票得分选择排名靠前的K只股票等权持有;接下来的每个交易日根据前一天HAN预测出的得分,剔除组合内得分最低的一只股票,纳入组合外得分最高的一只股票; 2. 因子IC测试:将HAN预测得分视为日频因子进行因子IC计算; 3. 因子分层回测:将HAN预测得分视为日频因子进行单因子分层回测。 在展示数据测试的结果之前,我们可以首先看一下HAN预测得分在沪深300股票池上的覆盖度,该覆盖度的实际含义为:过去10个自然日中至少有1则新闻的股票数量,可以看到整体覆盖度超过90%,偶尔覆盖度会有降低。 TopK-Dropout策略 回测开始的第一个交易日我们根据前一天HAN预测出的股票得分选择排名靠前的K只股票等权持有;从第二个交易日开始每天根据前一天HAN预测出的得分,剔除当前持仓组合内得分最低的一只股票,并以剩余资金买入组合外得分最高的一只股票。每次模型重新训练时持有的K只股票会根据最新沪深300成分股全部重新替换为得分最靠前的K只股票。关于K的选择在对比实验时我们都以30为例进行展示;后文我们对K的选择进行讨论。 通过以上对比实验,我们可以总结出如下结论: 1. HAN混合注意力机制网络选股效果较为优秀,TopK-Dropout策略在回测区间可以获得较为显著的超额回报,区间相对于沪深300等权指数年化超额15.96%,超额稳健;且TopK-Dropout策略受手续费影响较小; 2. 注意力机制的有无对最终结果有较大影响,有注意力模块的网络选股效果明显要好于无注意力模块的网络,且效果相差较大; 3. 不同模块注意力机制影响不同,词注意力模块的缺失对选股结果影响相对较小,去除词注意力模块以后年化收益与年化超额收益大约削减2%左右;新闻注意力与日期注意力的缺失对选股结果影响较大,去除新闻注意力或日期注意力以后选股结果几乎难以获得超额收益,超额收益在零附近波动。 但值得说明的是,我们在测试的过程中发现某些情形下,即使是三组注意力模块都存在,选股结果也可能由于模型超参数的变化而产生一定范围的波动,因此这里我们展示的对照试验结果未必呈现出了对应网络结构下的最优选股效果,仅是在保证其余超参数都一致的情形下的严格对照。 除此以外,实验组对应的换手率及损失函数如上面图表所示。从换手率来看,基于HAN网络的日频选股策略日频双边换手平均在6.5%左右,年化双边换手16倍。从损失函数来看,HAN的训练过程可以看到较为典型的损失函数变化形态,图中所展示的结果大约在20轮迭代以后进入稳定状态。 本小节最后我们对实验组中不同K的取值进行了测试,结果如下图所示。从结果来看K取20/30/40整体效果差别不大,说明基于HAN日频因子构建的TopK-Dropout策略对股票数量这一参数的敏感性程度较低。K取20时回测收益最高,但波动更大,最大回撤幅度更大。 HAN日频因子IC测试 将HAN网络预测所得到的每只股票上涨类别的概率视为日频因子,计算因子的IC值: 其中表示T+1日个股收益率(按开盘价计算日频收益率),表示第T日个股对应的HAN因子值。在多因子选股体系中,为验证单因子的有效性,上述因子值我们一般会进行行业市值中性处理;但受限于算力,本文计算的HAN因子限制于沪深300股票池内,因此我们不对因子值进行行业市值中性预处理。 由于HAN输出的因子值是属于上涨类别的概率,因此较少出现异常值,可以直接使用IC对因子有效性进行判断,无需秩相关系数,根据IC对因子进行评价的方法如下: 1) IC值序列均值——因子显著性; 2) IC值序列标准差——因子稳定性; 3) IC_IR(IC值序列均值与标准差的比值)——因子有效性; 4) IC值序列大于零的占比——因子作用方向是否稳定。 从单因子IC的角度来看实验组的因子有效性也强于其余对照组,词注意力模块的缺失对因子有效性影响较小;新闻注意力与日期注意力模块的缺失对因子有效性影响较大。实验组日频IC均值为0.0154,IC_IR为0.1260;从因子IC的角度来看即使是实验组的有效性也不能称之为很强(一般认为IC_IR大于0.5是有效因子),一方面或许提示我们网络结构的设计仍有改进空间;但另一方面从下文的分析可以看出,HAN日频因子的IC_IR不高可能是由于非多头端的相关性不强造成的。 HAN日频因子分层测试 分层测试是单因子有效性检验的另一手段,本小节我们对单因子进行有效性检验。分层回测的方式为:按每日的因子值将沪深300股票池内股票分为5层,统计各层日频按开盘价计算的收益率的均值作为该层当日收益,在时间序列上对日频收益进行累乘得到该层的回测净值。 从分层回测的结果可以看到,HAN实验组日频因子的多头侧收益非常明显,长期来看相对基准净值较为稳健;后面四层虽然单调性不如第一层,但整体可以看出区分度。结合上一小节对IC值的分析,我们不难发现HAN实验组日频因子的IC值不高主要是来自于非多头端的分层效果比较一般:回顾HAN日频因子的构建流程,我们是对每只股票过去10个自然日的新闻舆情进行分析,实际上模型比较关注的应当是新闻舆情覆盖度比较高的那些股票,而尾部的股票可能过去10个自然日相关的舆情数量很少,导致模型难以区分开,也属合理,这并不妨碍我们利用HAN日频因子的多头端收益贡献。 注意力分析 最后我们对模型训练当中的注意力实际结果进行分析展示,对注意力系数进行分析可以更为直观地看到HAN模型对文本是如何进行思考的,帮助我们了解当前网络结构设计的不合理之处,便于后续改进。 词注意力系数 下图展示词注意力模块部分样本的注意力系数,颜色越靠近红色表示网络赋予的注意力越高,颜色越靠近深蓝色表示网络赋予的注意力越低;我们选取了三组样本进行展示,如下图所示,其中UNK(Unknown Word)表示超出词域的词语: 从上述示例样本我们可以总结出以下三点结论: 1. 模型对于那些具有实际意义的词语会赋予较高的权重,例如示例1中的“符合”、“加速”、“助力”等词语、示例2中的“打破”、“利好”等词语及示例3中的“看好”、“认为”等词语,而这些词语确实对判断对应文本的情感倾向有较重要的作用; 2. 模型对于专有名词赋予的注意力较低,例如示例1中的“多晶硅”、示例2中的“华宝”等词语,而这些词语单个出现时也确实对情感判断影响不大; 3. 最后我们需要指出模型的缺点:可以看到示例3中模型给予“景气”、“回暖”等词较低的权重,而“回暖”上文为“有望”,“景气”上文为“高”,按常规经验应当会给予这样一些词较高的权重,我们推测可能的原因在于Embedding词向量编码时我们并未使用金融语料库,而是较为泛用的中文语料库,可能导致模型对“景气”、“回暖”等金融领域的专用词语关注度不足。 新闻注意力系数 下图展示新闻注意力模块部分样本的注意力系数,由于我们设置的每日最大新闻数量为5条,因此下图中展示的新闻注意力分配将在至多5条新闻上,不足5条的代表当天的新闻数量不足;颜色越靠近红色表示网络赋予的注意力越高,颜色越靠近深蓝色表示网络赋予的注意力越低 从上述结果我们可以总结出以下几点结论: 1. 模型对突发事件的描述性新闻赋予的注意力比较高,例如示例样本1中的航空股突发事件的两条相关新闻注意力高于其余两条,可能是由于这类新闻具有较高的时效性; 2. 模型对个股描述类的新闻会赋予更高的注意力,例如示例样本3中对第个股的描述新闻更为关注,而点评类的新闻如第一和第二条样本,可能由于是对相关行业进行的点评,与个股的即时性联系并不是特别强,因此赋予了较低的权重。 时序注意力系数 最后我们展示时序注意力系数。下图为2016-2018训练期的样本内模型在过去10个自然日时序水平上的注意力取值,我们随机采样了500条样本分别对这10个自然日的注意力系数计算均值。T-10表示前10个自然日,T-1表示前1个自然日,从结果来看时间越近的新闻平均赋予的注意力水平越高;时间越远的新闻平均赋予的注意力水平越低,与我们预期的较为符合。 但值得说明的是,可以看到前10个自然日的注意力系数没有体现出很大的差别,只在10%的水平上下浮动,说明模型对过去10个自然日的注意力分配也并没有特别集中在更近的自然日,也许意味着模型网络的设计仍然存在进一步提升的空间。 总结与展望 本文通过深度学习中的注意力机制技术来模仿人类学习新闻舆情时的“顺序内容依赖”和“多样化影响”,构建起对个股同一日多条新闻、不同自然日不同新闻进行文本挖掘从而预测个股短时走势的HAN网络,近年来在沪深300成分股内具有较为优秀的选股效果。HAN网络主要依赖三组注意力模块对人类学习新闻舆情的过程进行模拟: 1. 词语注意力机制:词语注意力机制模仿人类在阅读单条新闻时对不同单词赋予不同关注度的过程,人类在阅读单条新闻时大脑会将注意力集中于那些含有关键信息的词语,通过对少数关键词的重点理解来解读整句话的含义。词语注意力机制希望模仿这种学习方式,给予关键词的编码向量更高的权重,从而更为准确地解读整条新闻的正负向情感。 2. 新闻注意力机制:新闻注意力机制模仿人类在阅读多条新闻时对不同新闻赋予不同关注度的过程,不同的新闻蕴含的信息量不同,例如分析师点评类的舆情比市场表现描述类的舆情具有更高的未来信息含量,因此前者可能更容易引起我们的注意。新闻注意力机制希望模仿这种学习方式,给予信息含量更高的新闻以更高的权重,从而在众多新闻中抓住个股未来表现的关键影响因素。 3. 时序注意力机制:时序注意力机制模仿人类在阅读不同自然日的新闻时赋予不同关注度的过程,例如距离时间越远的新闻有效性越弱,距离时间越近的新闻有效性越强,或者某个自然日的新闻重要性程度远超其余自然日,此时人们更可能将注意力集中于近期发生的关键新闻舆情上。时序注意力机制希望模仿这种学习方式,给予不同日期的舆情以不同的权重,重点关注那些具有关键影响日期的新闻。 我们对上述三组注意力机制进行了数据实证,结果表明在三组注意力机制都存在的情况下,HAN网络确实可以构建出较为优秀的选股策略,HAN日频因子多头端收益较为明显。同时为验证注意力机制的必要性,我们也进行了三组对照试验,结果表明词注意力机制的缺失对最终结果影响较小,新闻注意力和时序注意力的缺失对最终结果影响较大。 最后我们对三组注意力机制模块的具体实验数据结果进行了讨论,总体而言三个注意力模块中注意力确实在一定程度上呈现出了我们所预期的效果,例如词注意力模块对于信噪比更高的词会给予更高的权重,新闻注意力模块对于个股直接相关的新闻会给予更高的权重,时序注意力模块对于更近的新闻会给予更高的权重。但也值得注意的是,部分注意力仍然存在不合预期之处,例如时序注意力分配在过去10天的注意力从绝对值来看并没有太大的差别,或提示我们HAN网络仍有提升空间。 本文作为注意力机制应用于新闻舆情分析的初探报告,仍然存在许多不足之处,例如: 1. 本文参考的原论文在训练HAN时表明自步学习(Self-paced Learning)可以有效地提升模型的表现。自步学习的大体思想是模仿人类在学习过程中由易到难的学习过程,在学习的初始阶段跳过较难学习的样本,关注较容易学习的样本;在学习一段时间后再引入较难学习的样本,本文对此暂未实现; 2. 原论文的发表时间为2017年,彼时NLP中的经典模型BERT还未被提出,因此HAN网络的第一层除了Word2Vec模型以外并未进行更复杂的编码,虽然本文第一层增加了词注意力模块,但提升效果仍然有限,因此可以考虑尝试在新闻注意力模块之前增加BERT模块对输入词向量再进行编码; 3. 虽然我们证明了HAN多头端确实具有明显正向收益,但目前仍未构建起投资机构可操作的多头策略,因此如果将多头alpha利用起来仍然值得深入挖掘。 参考文献 Hu, Ziniu, et al. "Listening to chaotic whispers: A deep learning framework for news-oriented stock trend prediction." Proceedings of the eleventh ACM international conference on web search and data mining. 2018. 风险提示 通过深度学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。量化因子的效果与宏观环境和大盘走势密切相关,历史结果不能预测未来,敬请注意。 免责声明与评级说明 公众平台免责申明 本公众平台不是华泰证券研究所官方订阅平台。相关观点或信息请以华泰证券官方公众平台为准。根据《证券期货投资者适当性管理办法》的相关要求,本公众号内容仅面向华泰证券客户中的专业投资者,请勿对本公众号内容进行任何形式的转发。若您并非华泰证券客户中的专业投资者,请取消关注本公众号,不再订阅、接收或使用本公众号中的内容。因本公众号难以设置访问权限,若给您造成不便,烦请谅解!本公众号旨在沟通研究信息,交流研究经验,华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号研究报告有关内容摘编自已经发布的研究报告的,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。如需了解详细内容,请具体参见华泰证券所发布的完整版报告。 本公众号内容基于作者认为可靠的、已公开的信息编制,但作者对该等信息的准确性及完整性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对客户私人投资建议。订阅人不应单独依靠本订阅号中的信息而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。普通投资者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券股份有限公司所有,未经公司书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。本公司具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。 华泰金工深度报告一览 金融周期系列研究(资产配置) 【华泰金工林晓明团队】2020年中国市场量化资产配置年度观点——周期归来、机会重生,顾短也兼长20200121 【华泰金工林晓明团队】量化资产配置2020年度观点——小周期争明日,大周期赢未来20200116 【华泰金工林晓明团队】风险预算模型如何度量风险更有效-改进风险度量方式稳定提升风险模型表现的方法 【华泰金工林晓明团队】周期双底存不确定性宜防守待趋势——短周期底部拐头机会渐增,待趋势明朗把握或更大20191022 【华泰金工林晓明团队】二十年一轮回的黄金投资大周期——黄金的三周期定价逻辑与组合配置、投资机会分析20190826 【华泰金工林晓明团队】如何有效判断真正的周期拐点?——定量测度实际周期长度提升市场拐点判准概率 【华泰金工林晓明团队】基钦周期的长度会缩短吗?——20190506 【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(下) 【华泰金工林晓明团队】二十载昔日重现,三四年周期轮回——2019年中国与全球市场量化资产配置年度观点(上) 【华泰金工林晓明团队】周期轮动下的BL资产配置策略 【华泰金工林晓明团队】周期理论与机器学习资产收益预测——华泰金工市场周期与资产配置研究 【华泰金工林晓明团队】市场拐点的判断方法 【华泰金工林晓明团队】2018中国与全球市场的机会、风险 · 年度策略报告(上) 【华泰金工林晓明团队】基钦周期的量化测度与历史规律 · 华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(四)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(三)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(二)——华泰金工周期系列研究 【华泰金工林晓明团队】周期三因子定价与资产配置模型(一)——华泰金工周期系列研究 【华泰金工林晓明团队】华泰金工周期研究系列 · 基于DDM模型的板块轮动探索 【华泰金工林晓明团队】市场周期的量化分解 【华泰金工林晓明团队】周期研究对大类资产的预测观点 【华泰金工林晓明团队】金融经济系统周期的确定(下)——华泰金工周期系列研究 【华泰金工林晓明团队】金融经济系统周期的确定(上)——华泰金工周期系列研究 【华泰金工林晓明团队】全球多市场择时配置初探——华泰周期择时研究系列 行业指数频谱分析及配置模型:市场的周期分析系列之三 【华泰金工林晓明团队】市场的频率——市场轮回,周期重生 【华泰金工林晓明团队】市场的轮回——金融市场周期与经济周期关系初探 周期起源 【华泰金工林晓明团队】金融经济周期的耗散结构观——华泰周期起源系列研究之十 【华泰金工林晓明团队】经济系统中有序市场结构的进化——华泰周期起源系列研究报告之九 【华泰金工林晓明团队】企业间力的产生、传播和作用效果——华泰周期起源系列研究之八 【华泰金工林晓明团队】耦合振子同步的藏本模型——华泰周期起源系列研究之七 【华泰金工林晓明团队】周期在供应链管理模型的实证——华泰周期起源系列研究之六 【华泰金工林晓明团队】不确定性与缓冲机制——华泰周期起源系列研究报告之五 【华泰金工林晓明团队】周期是矛盾双方稳定共存的结果——华泰周期起源系列研究之四 【华泰金工林晓明团队】周期是不确定性条件下的稳态——华泰周期起源系列研究之三 【华泰金工林晓明团队】周期趋同现象的动力学系统模型——华泰周期起源系列研究之二 【华泰金工林晓明团队】从微观同步到宏观周期——华泰周期起源系列研究报告之一 FOF与金融创新产品 【华泰金工林晓明团队】养老目标基金的中国市场开发流程--目标日期基金与目标风险基金产品设计研究 【华泰金工】生命周期基金Glide Path开发实例——华泰FOF与金融创新产品系列研究报告之一 因子周期(因子择时) 【华泰金工林晓明团队】市值因子收益与经济结构的关系——华泰因子周期研究系列之三 【华泰金工林晓明团队】周期视角下的因子投资时钟--华泰因子周期研究系列之二 【华泰金工林晓明团队】因子收益率的周期性研究初探 择时 【华泰金工林晓明团队】波动率与换手率构造牛熊指标——华泰金工量化择时系列 【华泰金工林晓明团队】A股市场低开现象研究 【华泰金工林晓明团队】华泰风险收益一致性择时模型 【华泰金工林晓明团队】技术指标与周期量价择时模型的结合 【华泰金工林晓明团队】华泰价量择时模型——市场周期在择时领域的应用 中观基本面轮动 【华泰金工林晓明团队】行业配置落地:指数增强篇——华泰中观基本面轮动系列之十 【华泰金工林晓明团队】行业配置策略:拥挤度视角——华泰中观基本面轮动系列之九 【华泰金工林晓明团队】行业配置策略:景气度视角——华泰中观基本面轮动系列之八 【华泰金工林晓明团队】行业配置策略:趋势追踪视角——华泰中观基本面轮动系列之七 【华泰金工林晓明团队】行业配置策略:宏观因子视角——华泰中观基本面轮动系列之六 【华泰金工林晓明团队】行业全景画像:投入产出表视角——华泰中观基本面轮动系列之五 【华泰金工林晓明团队】行业全景画像:改进杜邦拆解视角——华泰中观基本面轮动系列之四 【华泰金工林晓明团队】行业全景画像:风格因子视角 ——华泰中观基本面轮动系列之三 【华泰金工林晓明团队】行业全景画像:宏观因子视角 ——华泰中观基本面轮动系列之二 【华泰金工林晓明团队】确立研究对象:行业拆分与聚类——华泰中观基本面轮动系列之一 行业轮动 【华泰金工林晓明团队】不同协方差估计方法对比分析(二)——华泰行业轮动系列报告之十三 【华泰金工林晓明团队】拥挤度指标在行业配置中的应用——华泰行业轮动系列报告之十二 【华泰金工林晓明团队】基于投入产出表的产业链分析 ——华泰行业轮动系列报告之十一 【华泰金工林晓明团队】不同协方差估计方法对比分析——华泰行业轮动系列报告之十 【华泰金工林晓明团队】景气度指标在行业配置中的应用——华泰行业轮动系列报告之九 【华泰金工林晓明团队】再探周期视角下的资产轮动——华泰行业轮动系列报告之八 【华泰金工林晓明团队】“华泰周期轮动”基金组合改进版——华泰行业轮动系列报告之七 【华泰金工林晓明团队】“华泰周期轮动”基金组合构建——华泰行业轮动系列之六 【华泰金工林晓明团队】估值因子在行业配置中的应用——华泰行业轮动系列报告之五 【华泰金工林晓明团队】动量增强因子在行业配置中的应用——华泰行业轮动系列报告之四 【华泰金工林晓明团队】财务质量因子在行业配置中的应用——华泰行业轮动系列报告之三 【华泰金工林晓明团队】周期视角下的行业轮动实证分析——华泰行业轮动系列之二 【华泰金工林晓明团队】基于通用回归模型的行业轮动策略——华泰行业轮动系列之一 Smartbeta 【华泰金工林晓明团队】重剑无锋:低波动 Smart Beta——华泰 Smart Beta 系列之四 【华泰金工林晓明团队】投资优质股票:红利类Smart Beta——华泰Smart Beta系列之三 【华泰金工林晓明团队】博观约取:价值和成长Smart Beta——华泰Smart Beta系列之二 【华泰金工林晓明团队】Smart Beta:乘风破浪趁此时——华泰Smart Beta系列之一 【华泰金工林晓明团队】Smartbeta在资产配置中的优势——华泰金工Smartbeta专题研究之一 多因子选股 【华泰金工林晓明团队】华泰单因子测试之历史分位数因子——华泰多因子系列之十三 【华泰金工林晓明团队】桑土之防:结构化多因子风险模型——华泰多因子系列之十二 【华泰金工林晓明团队】华泰单因子测试之海量技术因子——华泰多因子系列之十一 【华泰金工林晓明团队】因子合成方法实证分析 ——华泰多因子系列之十 【华泰金工林晓明团队】华泰单因子测试之一致预期因子 ——华泰多因子系列之九 【华泰金工林晓明团队】华泰单因子测试之财务质量因子——华泰多因子系列之八 【华泰金工林晓明团队】华泰单因子测试之资金流向因子——华泰多因子系列之七 【华泰金工林晓明团队】华泰单因子测试之波动率类因子——华泰多因子系列之六 【华泰金工林晓明团队】华泰单因子测试之换手率类因子——华泰多因子系列之五 【华泰金工林晓明团队】华泰单因子测试之动量类因子——华泰多因子系列之四 【华泰金工林晓明团队】华泰单因子测试之成长类因子——华泰多因子系列之三 【华泰金工林晓明团队】华泰单因子测试之估值类因子——华泰多因子系列之二 【华泰金工林晓明团队】华泰多因子模型体系初探——华泰多因子系列之一 【华泰金工林晓明团队】五因子模型A股实证研究 【华泰金工林晓明团队】红利因子的有效性研究——华泰红利指数与红利因子系列研究报告之二 人工智能 【华泰金工林晓明团队】基于遗传规划的一致预期因子挖掘——华泰人工智能系列之54 【华泰金工林晓明团队】文本PEAD选股策略——华泰人工智能系列之五十一 【华泰金工林晓明团队】SinGAN 单样本生成——人工智能系列之四十九 【华泰金工林晓明团队】对抗过拟合:cGAN应用于策略调参——人工智能系列之四十八 【华泰金工林晓明团队】cGAN模拟宏观指标——人工智能系列之四十七 【华泰金工林晓明团队】AlphaNet改进:结构和损失函数——华泰人工智能系列之四十六 【华泰金工林晓明团队】cGAN应用于资产配置——华泰人工智能系列之四十五 【华泰金工林晓明团队】因子观点融入机器学习——华泰人工智能系列之四十五 【华泰金工林晓明团队】深度卷积GAN实证——华泰人工智能系列之四十四 【华泰金工林晓明团队】因子观点融入机器学习——华泰人工智能系列之四十三 【华泰金工林晓明团队】图神经网络选股与Qlib实践——华泰人工智能系列之四十二 【华泰金工林晓明团队】基于BERT的分析师研报情感因子——华泰人工智能系列之四十一 【华泰金工林晓明团队】微软AI量化投资平台Qlib体验——华泰人工智能系列之四十 【华泰金工林晓明团队】周频量价选股模型的组合优化实证——华泰人工智能系列之三十九 【华泰金工林晓明团队】WGAN生成:从单资产到多资产——华泰人工智能系列之三十八 【华泰金工林晓明团队】舆情因子和BERT情感分类模型——华泰人工智能系列之三十七 【华泰金工林晓明团队】相对生成对抗网络RGAN实证——华泰人工智能系列之三十六 【华泰金工林晓明团队】WGAN应用于金融时间序列生成——华泰人工智能系列之三十五 【华泰金工林晓明团队】再探AlphaNet:结构和特征优化——华泰人工智能系列之三十四 【华泰金工林晓明团队】数据模式探索:无监督学习案例——华泰人工智能系列之三十三 【华泰金工林晓明团队】AlphaNet:因子挖掘神经网络——华泰人工智能系列之三十二 【华泰金工林晓明团队】生成对抗网络GAN初探——华泰人工智能系列之三十一 【华泰金工林晓明团队】从关联到逻辑:因果推断初探——华泰人工智能系列之三十 【华泰金工林晓明团队】另类标签和集成学习——华泰人工智能系列之二十九 【华泰金工林晓明团队】基于量价的人工智能选股体系概览——华泰人工智能系列之二十八 【华泰金工林晓明团队】揭开机器学习模型的“黑箱” ——华泰人工智能系列之二十七 【华泰金工林晓明团队】遗传规划在CTA信号挖掘中的应用——华泰人工智能系列之二十六 【华泰金工林晓明团队】市场弱有效性检验与择时战场选择——华泰人工智能系列之二十五 【华泰金工林晓明团队】投石问路:技术分析可靠否?——华泰人工智能系列之二十四 【华泰金工林晓明团队】再探基于遗传规划的选股因子挖掘——华泰人工智能系列之二十三 【华泰金工林晓明团队】基于CSCV框架的回测过拟合概率——华泰人工智能系列之二十二 【华泰金工林晓明团队】基于遗传规划的选股因子挖掘——华泰人工智能系列之二十一 【华泰金工林晓明团队】必然中的偶然:机器学习中的随机数——华泰人工智能系列之二十 【华泰金工林晓明团队】偶然中的必然:重采样技术检验过拟合——华泰人工智能系列之十九 【华泰金工林晓明团队】机器学习选股模型的调仓频率实证——华泰人工智能系列之十八 【华泰金工林晓明团队】人工智能选股之数据标注方法实证——华泰人工智能系列之十七 【华泰金工林晓明团队】再论时序交叉验证对抗过拟合——华泰人工智能系列之十六 【华泰金工林晓明团队】人工智能选股之卷积神经网络——华泰人工智能系列之十五 【华泰金工林晓明团队】对抗过拟合:从时序交叉验证谈起 【华泰金工林晓明团队】人工智能选股之损失函数的改进——华泰人工智能系列之十三 【华泰金工林晓明团队】人工智能选股之特征选择——华泰人工智能系列之十二 【华泰金工林晓明团队】人工智能选股之Stacking集成学习——华泰人工智能系列之十一 【华泰金工林晓明团队】宏观周期指标应用于随机森林选股——华泰人工智能系列之十 【华泰金工林晓明团队】人工智能选股之循环神经网络——华泰人工智能系列之九 【华泰金工林晓明团队】人工智能选股之全连接神经网络——华泰人工智能系列之八 【华泰金工林晓明团队】人工智能选股之Python实战——华泰人工智能系列之七 【华泰金工林晓明团队】人工智能选股之Boosting模型——华泰人工智能系列之六 【华泰金工林晓明团队】人工智能选股之随机森林模型——华泰人工智能系列之五 【华泰金工林晓明团队】人工智能选股之朴素贝叶斯模型——华泰人工智能系列之四 【华泰金工林晓明团队】人工智能选股之支持向量机模型— —华泰人工智能系列之三 【华泰金工林晓明团队】人工智能选股之广义线性模型——华泰人工智能系列之二 指数增强基金分析 【华泰金工林晓明团队】再探回归法测算基金持股仓位——华泰基金仓位分析专题报告 【华泰金工林晓明团队】酌古御今:指数增强基金收益分析 【华泰金工林晓明团队】基于回归法的基金持股仓位测算 【华泰金工林晓明团队】指数增强方法汇总及实例——量化多因子指数增强策略实证 基本面选股 【华泰金工林晓明团队】华泰价值选股之相对市盈率港股模型——相对市盈率港股通模型实证研究 【华泰金工林晓明团队】华泰价值选股之FFScore模型 【华泰金工林晓明团队】相对市盈率选股模型A股市场实证研究 【华泰金工林晓明团队】华泰价值选股之现金流因子研究——现金流因子选股策略实证研究 【华泰金工林晓明团队】华泰基本面选股之低市收率模型——小费雪选股法 A 股实证研究 【华泰金工林晓明团队】华泰基本面选股之高股息率模型之奥轩尼斯选股法A股实证研究 基金定投 【华泰金工林晓明团队】大成旗下基金2018定投策略研究 【华泰金工林晓明团队】布林带与股息率择时定投模型——基金定投系列专题研究报告之四 【华泰金工林晓明团队】基金定投3—马科维茨有效性检验 【华泰金工林晓明团队】基金定投2—投资标的与时机的选择方法 【华泰金工林晓明团队】基金定投1—分析方法与理论基础 基金评价 【华泰金工林晓明团队】基金评价及筛选全流程研究框架——股票型与债券型基金多种维度定量与定性评价法 【华泰金工林晓明团队】基金选股择时能力的定量分析法——我国公募基金大多具有较强选股能力 【华泰金工林晓明团队】基金业绩持续性的规律与策略构建——采用有效影响因子筛选出持续性较好的绩优基金 ETF季度盘点 【华泰金工林晓明团队】2021Q2中国ETF市场盘点回顾 【华泰金工林晓明团队】2021Q1中国ETF市场盘点回顾 【华泰金工林晓明团队】2020Q4中国ETF市场全景回顾——总规模创新高,行业主题类ETF渐成市场新主角20210112 【华泰金工林晓明团队】2020年三季度中国ETF市场回顾——产品百花齐放、投资者结构日渐成熟,规模创新高20201021 【华泰金工林晓明团队】ETF产品细分差异化或成突围之道——2020二季度中国ETF市场全景回顾盘点与展望20200803 【华泰金工林晓明团队】ETF规模数量大涨品类不断丰富——2020一季度中国ETF市场全景回顾盘点 其它 【华泰金工林晓明团队】A股市场及行业的农历月份效应——月份效应之二 A股市场及行业的月份效应——详解历史数据中的隐藏法则
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。