首页 > 公众号研报 > 华泰 | 金工:如何捕捉长时间序列量价数据的规律

华泰 | 金工:如何捕捉长时间序列量价数据的规律

作者:微信公众号【华泰睿思】/ 发布时间:2024-03-15 / 悟空智库整理
(以下内容从华泰证券《》研报附件原文摘录)
  人工智能系列之75:patch思想用于长时间序列量价选股模型 随着高频数据的普及和算力的发展,量化投资中使用的时间序列数据长度正逐渐扩展。传统GRU模型在处理长序列数据时可能存在信息遗忘、难以捕捉周期性和异质性规律等问题。本研究引入patch的思想,按照交易日将股票的长时间序列量价数据划分为多个patch,设计PatchModel1和PatchModel2两个模型,并在两个选股场景下进行测试。结果表明,patch模型具有增量信息,模型融合后相比GRU均有提升。使用两个场景下的合成因子对前期报告的全频段融合因子加以改进,回测表现有所提高。 核心观点 传统GRU模型在处理长序列数据时可能存在一些“盲区” 作为一种经典的时间序列深度学习模型,GRU在量化投资中有着广泛应用。然而,GRU在处理长时间序列量价数据存在一些缺陷。首先,当序列非常长的时候,GRU会遇到梯度消失、信息遗忘的问题。其次,高频量价数据具有一定的周期性,GRU难以捕捉这种周期性的规律。此外,长时间序列量价数据的日内和日间信息传递具有异质性,但参数共享的设计造成GRU只能一视同仁地处理所有时间点的数据。 模型引入patch设计能够有效缓解GRU的不足 Patch的思想可概括为对数据进行分块处理,并将每一块作为一个整体传入模型,在时间序列预测和计算机视觉等领域均有应用。本研究按照交易日将股票的长时间序列量价数据划分为多个patch,使模型可以有效缓解信息遗忘的问题,并引入以日为周期的先验知识,差异化地分析日内和日间信息传递。本文设计了PatchModel1和PatchModel2两个模型。PatchModel1使用GRU处理日内的时序数据,再通过注意力机制构建日间的联系;PatchModel2将日内时点信息拆解为不同的特征,再使用GRU来挖掘日间的时序规律。 Patch模型相较于基准GRU模型具有增量信息 本研究在两个场景下测试patch模型的表现。在15分钟频量价数据序列中,patch模型回测表现优于GRU,且模型间预测值相关性不高,等权合成因子的表现进一步提升。样本空间为全A股,GRU与patch模型合成后,2017/1/4~2024/2/29的回测期内周度RankIC均值从8.86%提升到9.58%,分10层TOP组合年化超额收益率从21.15%提升到24.65%。在30分钟频量价特征序列中,patch模型回测表现略弱于GRU,但仍能提供增量信息。GRU与patch模型合成后,周度RankIC均值从8.27%提升到8.62%,分10层TOP组合年化超额收益率从20.42%提升到21.64%。 改进全频段融合因子,回测表现有所增强 使用上述两个实验场景中的合成因子,对前期报告的全频段融合因子加以改进。全频段融合因子在2017/1/4~2024/2/29的回测期内周度RankIC均值从10.42%提升到11.33%,分10层TOP组合年化超额收益率从32.61%提升到34.40%。基于全频段融合因子2.0版本构建指数增强组合。在周双边换手率分别控制为30%、40%和50%的情况下,2017/1/4~2024/2/29回测期内中证500增强组合年化超额收益率为18.93%、18.57%和18.43%,信息比率为3.27、3.12和3.00;中证1000增强组合年化超额收益率为29.25%、30.92%和28.94%,信息比率为4.35、4.48和4.12。 风险提示:借助高频因子、人工智能构建的选股策略是历史经验的总结,存在失效的可能。深度学习的可解释性较弱,使用需谨慎。 正文 研究导读 随着高频数据的普及和算力的发展,量化投资中使用的时间序列数据长度正逐渐扩展。以华泰金工的研究为例,2020年6月报告《AlphaNet:因子挖掘神经网络》中,使用过去30个交易日的日频量价数据作为模型输入,时间序列的长度为30;2023年5月报告《神经网络多频率因子挖掘模型》中,使用过去20个交易日的15分钟K线数据作为模型输入,时间序列的长度达到320。 更长的时间序列量价数据蕴含着更加丰富的信息,也带来了新的问题:传统时间序列模型可能难以充分挖掘长序列中的规律。例如,门控循环单元(GRU)是一种经典的时间序列深度学习模型,在量化投资中有着广泛应用。然而,GRU模型在处理长序列数据时可能存在一些“盲区”:(1)尽管GRU中使用了重置门和更新门来控制信息的流动,但仍会遇到梯度消失、信息遗忘的问题,当序列非常长的时候尤为明显;(2)高频量价数据具有一定的周期性,比如早盘和尾盘的交易量一般比盘中更大,GRU难以捕捉这种周期性的规律;(3)长时间序列量价数据的信息传递具有异质性,特别是从收盘到次日开盘,隔夜信息很可能与日内信息有较大差异,但参数共享的设计造成GRU只能一视同仁地处理所有时间点的数据。如何使用合适的模型来捕捉长时间序列数据的规律? Patch思想可能是值得借鉴的解决方案,通过对时间序列数据进行分块处理,能够有效兼顾局部和全局信息。本研究将长时间序列量价数据按照交易日划分为多个patch,对日内和日间的时间序列展开差异化建模,以改善GRU的表现。本文设计了两个模型PatchModel1和PatchModel2,并在15分钟频量价数据序列和30分钟频量价特征序列两个实验场景下进行测试。结果表明:patch模型接近或优于基准GRU模型,而且信息互补,模型融合后相比GRU均有提升。 Patch思想 Patch的概念与优点 Patch的思想可以概括为对时间序列数据进行分块处理,并将每一块作为一个整体传入模型。对数据进行patch处理具备以下优点:(1)模型保留了局部信息,在时间序列中模型可以捕捉某一时间点前后一段时间的信息,而不只是这一时间点的信息;(2)在给定相同时间窗口下,对模型进行patch处理减少了算力以及内存的占用,提升了模型的运行效率;(3)模型可以捕捉更长时间窗口的信息,由于时间序列通常携带大量的时间冗余信息,因此在过往的研究中通常调低采样频率或设计稀疏连接的方法来忽略部分数据点,而进行patch处理后的数据可以在保留全部数据点的基础上避免冗余信息的影响。 Patch的相关研究 近年来许多学者将patch的思想应用在不同的深度学习领域。Nie等(2022)提出patch时间序列Transformer模型(PatchTST),并应用于多变量时间序列预测和自监督表征学习中。PatchTST模型包括patch和通道独立两个核心部分:patch将时间序列分解为多个子序列,作为Transformer的输入token;通道独立意味着每个输入token只包含来自单个变量的信息。论文比较了PatchTST与多个Transformer类模型在不同领域数据集上的表现,发现PatchTST展现了更好的预测能力。论文还尝试了自监督学表征学习,模型性能也有提升。 Zhang等(2023)提出多尺度Transformer金字塔网络(MTPNet),用于有效捕捉在多个不受约束的尺度上的时间依赖性。模型使用了维度不变编码(Dimension Invariant Embedding)的方法。以往的编码方式包括两种,在空间上分patch或在时间上分patch。该研究认为应该同时考虑空间和时间两个维度,先通过卷积对原来的时间序列做处理,实现空间维度信息的融合,然后在时间维度上进行分patch的操作。这种方式使得每个patch的编码同时保留了空间和时间维度的信息。 此外,在计算机视觉领域,Dosovitskiy等(2020)基于patch提出视觉Transformer模型(ViT),并得到了比卷积神经网络更出色的性能。应用于大型数据集上时,ViT模型可以捕捉图片中局部信息,并减少需要的计算资源。 OpenAI最新成果Sora模型能够将文本描述转换为相应的视频内容,在技术和效果上都有巨大突破,核心之一是spacetime patch,先将视频压缩到低维空间,再分解为时空patch序列,作为Transformer的输入token,这使得Sora能够适应不同分辨率的视频。 实验设计 方法 借鉴上述思想,股票的长时间序列数据也可划分为多个patch,很自然的方法便是按照交易日来分割,即每个patch为同一交易日的日内数据,不同patch属于不同交易日。这种做法可以有效缓解GRU的不足:(1)GRU在分析长时间序列数据时会出现信息遗忘的问题,而patch能够处理更长时间窗口的信息;(2)GRU难以捕捉高频量价数据的周期性规律,patch划分方法可引入以日为周期的先验知识;(3)GRU只能同质化地处理不同时刻的信息传递,patch能够差异化地分析日内和日间信息传递。 将股票分割为patch之后,还会涉及两个问题:(1)patch内的数据如何建模;(2)patch间的数据如何建模。一种思路是,patch内数据具有时序规律,可使用GRU进行建模,之后再通过注意力或拼接等方式构建patch间的联系,由此我们设计出第一个模型PatchModel1。还有一种思路是,patch内数据可拆解为不同的特征(例如早盘数据是一个特征,尾盘数据是另一个特征),再使用GRU来挖掘patch间的时序规律,基于这种思路我们设计出第二个模型PatchModel2。 PatchModel1 PatchModel1使用GRU捕捉patch内的时序信息,再通过注意力机制构建patch间的联系,网络结构如下图。 输入维度为t×f的数据(其中t代表序列长度,f代表特征数量),首先将输入数据划分为多个patch,每个patch属于同一天,得到维度为m×n×f的向量(其中m代表天数,n代表每一天内时间序列的长度)。例如,序列长度为320的15分钟频开、高、低、收、vwap、成交量数据,可转换为20×16×6的向量,即过去20个交易日,每个交易日有16个15分钟区间,每个区间有6个特征。 接着,使用GRU模型提取每个patch内部的时间序列信息,取最后一个时间步的输出,得到m个维度为h的向量,其中h代表隐含层维度。考虑到每天的序列都是从开盘到收盘,具有一定的共性,本研究使用相同参数的GRU对不同patch进行建模。最后,使用注意力机制对不同patch的输出进行加权,再接入全连接层,得到预测值。计算注意力的方法为: PatchModel2 PatchModel2使用GRU来挖掘patch间的时序规律,网络结构如下图。 同PatchModel1一样,输入维度为t×f的数据,通过patch的划分可变换得到维度为m×n×f的向量。接着,借鉴PatchTST论文中通道独立的设计,对于每个原始特征,使用GRU提取patch间的时间序列信息,其中以每个patch作为时间步,patch内更细颗粒度的时间作为新的特征。考虑到不同通道的时间序列规律不一定相似,此模型使用不同参数的GRU。取最后一个时间步的输出,得到f个维度为h的隐含层。最后,将不同原始特征的隐含层拼接起来,再接入全连接层,得到预测值。 实验场景 15分钟频量价数据序列 华泰金工报告《神经网络多频率因子挖掘模型》(2023.5.11)中设计了基于GRU的15分钟频量价数据模型,使用个股过去20个交易日的15分钟频开、高、低、收、vwap、成交量数据来预测未来10个交易日的收益率。报告还尝试加入注意力机制来更好地记忆长序列信息,但相比原始GRU模型并无优势。本文将在此场景下测试patch模型的有效性。 30分钟频量价特征序列 华泰金工报告《基于全频段量价特征的选股模型》(2023.12.8)中使用分钟频、逐笔成交和逐笔委托数据,构建多个日频化因子。本研究将这些因子提升到30分钟频,使用个股过去40个交易日的30分钟频量价特征作为深度学习模型的输入,预测未来10个交易日的收益率,并测试此场景下patch模型的有效性。值得一提的是,量价特征使用30分钟频的原因是与前个实验15分钟频量价数据保持差异,以便论证模型的鲁棒性。 结果 我们使用单因子测试的方法,对以上模型进行测试。为了减轻随机性干扰,本文的深度学习模型都用不同随机数种子训练三次,将三次的模型等权集成,作为最终的因子信号。 单因子测试方法如下: 1.股票池:全A股,剔除ST股票,剔除每个截面期下一交易日停牌、涨停的股票。 2.回测区间:2017/1/4~2024/2/29。 3.调仓周期:周频,不计交易费用。 4.因子预处理:因子去极值、行业市值中性化、标准化。 5.测试方法:IC值分析,因子分10层测试,因子间相关性分析。 15分钟频量价数据序列 测试结果如下所示。与GRU基准模型相比,PatchModel1和PatchModel2整体表现更优,尽管RankIC均值略低,但TOP组合年化超额收益率和信息比率明显更高,TOP组合换手率也有所下降。 模型间预测值的相关性不高,GRU、PatchModel1和PatchModel2三个模型间预测值的相关系数在0.5~0.7之间。进一步将模型进行等权合成,合成因子的回测表现强于单因子。其中,三模型合成因子的TOP组合年化超额收益率领先其他因子,达到24.65%。 15分钟频patch模型相对GRU模型的增量信息是否仅来源于对日间信息的捕捉,改用日频量价数据模型能否囊括这些信息?本研究训练了一个基于过去40个交易日的日频量价数据来预测未来10日收益率的日频GRU模型。首先进行相关性分析,15分钟频GRU与日频GRU模型的相关性为0.53,而PatchModel1、PatchModel2与日频GRU模型的相关性均更低,三模型合成因子与日频GRU模型的相关性为0.55,仅提高0.02。接着使用15分钟频量价模型信号对日频GRU信号做回归,再对残差进行回测,PatchModel1、PatchModel2以及三模型合成因子的残差在多数指标上都好于GRU残差。此外,还可使用patch模型信号对日频GRU和15分钟频GRU信号同时做回归,残差超额同样显著。综上,patch模型通过网络结构设计更好地融合日内和日间信息,并非15分钟频GRU和日频GRU的简单加和。 30分钟频量价特征序列 测试结果如下所示。在此实验场景下,PatchModel1、PatchModel2的RankIC均值和TOP组合年化超额收益率表现略弱于GRU基准模型。不过,单模型间预测值的相关系数在0.6~0.8之间,patch模型仍能提供增量信息,与GRU等权合成后的因子表现强于单因子。其中,三模型合成因子表现较好,RankIC均值为8.62%,TOP组合年化超额收益率为21.64%。 全频段融合因子的改进 华泰金工报告《基于全频段量价特征的选股模型》(2023.12.8)中基于高频因子和低频量价数据,使用深度学习训练得到高频深度学习因子和低频多任务因子,再将两者按照1:3比例合成得到全频段融合因子。我们用上述两个实验场景中的合成因子对全频段融合因子加以改进。15分钟频量价模型因子、30分钟频量价模型因子、高频深度学习因子、低频多任务因子按照1:1:1:3比例进行合成,得到全频段融合因子2.0版本。 全频段融合因子测试 使用单因子测试的方法,对全频段融合因子1.0和2.0版本进行测试。全频段融合因子2.0在RankIC均值、IC_IR、TOP组合年化超额收益率、TOP组合信息比率、TOP组合胜率等多项指标上表现更加突出。 指数增强策略 使用全频段融合因子,构建中证500和中证1000指数增强组合,构建方法如下。 中证500增强 中证500增强组合回测结果如下。两种版本全频段融合因子构建的中证500增强策略,超额收益接近,但2.0版本的跟踪误差和超额收益最大回撤更低,因此信息比率和Calmar比率普遍更高。 中证1000增强 中证1000增强组合回测结果如下。全频段融合因子2.0版本同样在跟踪误差、超额收益最大回撤、信息比率和Calmar比率上体现出优势。 总结 随着高频数据的普及和算力的发展,量化投资中使用的时间序列数据长度正逐渐扩展。传统GRU模型在处理长序列数据时可能存在信息遗忘、难以捕捉周期性和异质性规律等问题。本研究引入patch的思想,按照交易日将股票的长时间序列量价数据划分为多个patch,设计PatchModel1和PatchModel2两个模型,并在两个选股场景下进行测试。结果表明,patch模型具有增量信息,模型融合后相比GRU均有提升。使用两个场景下的合成因子对前期报告的全频段融合因子加以改进,回测表现有所提高。 传统GRU模型在处理长序列数据时可能存在一些“盲区”。作为一种经典的时间序列深度学习模型,GRU在量化投资中有着广泛应用。然而,GRU在处理长时间序列量价数据存在一些缺陷。首先,当序列非常长的时候,GRU会遇到梯度消失、信息遗忘的问题。其次,高频量价数据具有一定的周期性,GRU难以捕捉这种周期性的规律。此外,长时间序列量价数据的日内和日间信息传递具有异质性,但参数共享的设计造成GRU只能一视同仁地处理所有时间点的数据。 模型引入patch设计能够有效缓解GRU的不足。Patch的思想可概括为对数据进行分块处理,并将每一块作为一个整体传入模型,在时间序列预测和计算机视觉等领域均有应用。本研究按照交易日将股票的长时间序列量价数据划分为多个patch,使模型可以有效缓解信息遗忘的问题,并引入以日为周期的先验知识,差异化地分析日内和日间信息传递。本文设计了PatchModel1和PatchModel2两个模型。PatchModel1使用GRU处理日内的时序数据,再通过注意力机制构建日间的联系;PatchModel2将日内时点信息拆解为不同的特征,再使用GRU来挖掘日间的时序规律。 Patch模型相较于基准GRU模型具有增量信息。本研究在两个场景下测试patch模型的表现。在15分钟频量价数据序列中,patch模型回测表现优于GRU,且模型间预测值相关性不高,等权合成因子的表现进一步提升。样本空间为全A股,GRU与patch模型合成后,2017/1/4~2024/2/29的回测期内周度RankIC均值从8.86%提升到9.58%,分10层TOP组合年化超额收益率从21.15%提升到24.65%。在30分钟频量价特征序列中,patch模型回测表现略弱于GRU,但仍能提供增量信息。GRU与patch模型合成后,周度RankIC均值从8.27%提升到8.62%,分10层TOP组合年化超额收益率从20.42%提升到21.64%。 改进全频段融合因子,回测表现有所增强。使用上述两个实验场景中的合成因子,对前期报告的全频段融合因子加以改进。全频段融合因子在2017/1/4~2024/2/29的回测期内周度RankIC均值从10.42%提升到11.33%,分10层TOP组合年化超额收益率从32.61%提升到34.40%。基于全频段融合因子2.0版本构建指数增强组合。在周双边换手率分别控制为30%、40%和50%的情况下,2017/1/4~2024/2/29回测期内中证500增强组合年化超额收益率为18.93%、18.57%和18.43%,信息比率为3.27、3.12和3.00;中证1000增强组合年化超额收益率为29.25%、30.92%和28.94%,信息比率为4.35、4.48和4.12。 风险提示 借助高频因子、人工智能构建的选股策略是历史经验的总结,存在失效的可能。深度学习的可解释性较弱,使用需谨慎。 参考文献 [1] Nie Y, Nguyen N H, Sinthong P, et al. A time series is worth 64 words: Long-term forecasting with transformers[J]. arXiv preprint arXiv:2211.14730, 2022. [2] Zhang Y, Wu R, Dascalu S M, et al. Multi-scale transformer pyramid networks for multivariate time series forecasting[J]. IEEE Access, 2024. [3] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020. [4] Dehghani M, Mustafa B, Djolonga J, et al. Patch n’pack: Navit, a vision transformer for any aspect ratio and resolution[J]. Advances in Neural Information Processing Systems, 2024, 36. [5] Arnab A, Dehghani M, Heigold G, et al. Vivit: A video vision transformer[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 6836-6846. 相关研报 研报:《如何捕捉长时间序列量价数据的规律》2024年3月14日 林晓明 S0570516010001 | BPY421 何康 S0570520080004 | BRB318 关注我们 华泰证券研究所国内站(研究Portal) https://inst.htsc.com/research 访问权限:国内机构客户 华泰证券研究所海外站 https://intl.inst.htsc.com/research 访问权限:美国及香港金控机构客户 添加权限请联系您的华泰对口客户经理 免责声明 ▲向上滑动阅览 本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。 本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。