首页 > 公众号研报 > 【国君金工-学界纵横系列】基于波动率分解的高频波动率预测模型

【国君金工-学界纵横系列】基于波动率分解的高频波动率预测模型

作者:微信公众号【Allin君行】/ 发布时间:2022-04-25 / 悟空智库整理
(以下内容从国泰君安《【国君金工-学界纵横系列】基于波动率分解的高频波动率预测模型》研报附件原文摘录)
  点击上方“Allin君行” ,关注我们 陈奥林 从业证书编号 S0880516100001 张烨垲 从业证书编号 S0880121070118 摘要 传统模型对高频率波动率预测效果存在局限性。而在实践中,在高频策略、算法交易上都依赖对日内短周期波动率的精确预测。另一方面,期权等衍生品的日内定价也有赖于高频波动率的预测,基于低频数据的波动率预测难以满足衍生品市场发展的需求。 《Forecasting intraday volatility in the US equity market. Multiplicative component GARCH》介绍了一种预测高频波动率的方法,该方法将日内高频波动率拆分为日度波动率、日内趋势项、日内随机项,并使用两步估计的方法进行估计和预测。 文章的主要结论:(1)文章认为日内高频波动率由上述三部分决定,按照这三项进行分解可以有效提高日内高频波动率的预测准确度;(2)扩充样本数据可以提高模型参数估计的稳定性,相比于对每个股票分别建模,使用相似特征的股票联合估计参数具有更高的预测准确度和稳定性。 我们以上证50 ETF分钟频率高频交易数据为基础,借鉴文章的波动率分解模型对国内市场进行实证研究。结果显示,模型在预测结果的有效性上表现优于不含随机项的NSTOCH模型以及直接对高频数据使用GARCH模型,一定程度上验证了波动率分解模型在国内市场的有效性。 01 选题背景 金融资产的波动性是一个与资产的风险密切相关的金融量,在衡量资产风险水平和特别是衍生品定价等方面有着举足轻重的影响,因此波动率一直是金融领域研究的热门主题,预测金融资产波动性对分析金融资产风险具有极其重要的理论意义和实用价值。 传统研究涵盖了从日度到年度甚至更长周期的波动率预测,但是对资产更高频率的波动率预测鲜有涉及。而在实践中,在高频策略、算法交易上都依赖对日内短周期波动率的精确预测。另一方面,期权等衍生品的日内定价也有赖于高频波动率的预测,基于低频数据的波动率预测难以满足衍生品市场发展的需求。 本篇报告推荐的文章《Forecasting intraday volatility in the US equity market. Multiplicative component GARCH》从波动率分解的角度出发提供了预测资产高频波动率的框架。借鉴本文的方法,我们对上证50 ETF分钟频率的波动率进行预测,相比基准模型预测效果得到有效提升。 02 核心结论 文章提出将股票高频波动率进行乘积分解,针对不同分量的特征相应进行建模,并通过实证检验日内波动率预测结果的准确性。 文章的主要结论:(1)文章认为日内高频波动率由三部分决定——日度波动率、日内波动率确定性趋势、日内波动率随机项,按照这三项进行分解可以有效提高日内高频波动率的预测准确度;(2)扩充样本数据可以提高模型参数估计的稳定性。相比于对每个股票分别建模,使用相似特征的股票联合估计参数具有更高的预测准确度和稳定性。 03 文章背景 传统波动率模型应用于高频波动率预测效果有限。Andersen等(1997)研究发现,通过MA(1)-GARCH(1,1)模型估计的日内波动率在不同频率数据下参变量缺乏一致性,例如Engle(1982)和Bollerslev(1986)提出的传统的GARCH模型对高频波动率的预测结果并不理想。为改进上述问题,Anderson等(1997)将波动率拆解为日条件方差分量和日内条件方差分量的乘积,然而这种拆解对波动率的刻画仍然效果有限。 为使预测结果更加准确,Anderson等(1998)将宏观经济公告作为影响日内方差分量的变量添加到波动率的拆解中。但该方法在实战使用中可能面临一定的困难:首先,重要的宏观经济公告通常发布在股市开盘之前,对日内波动率的变化影响不大;其次,对股市有重大影响的特殊公告公布的具体时间大多难以预测,难以构建与公告相联系的日内方差的函数;第三,股市对公告的反应取决于公告里的信息是否被市场提前消化,而提前消化的程度和时间难以估计;最后,股市中存在信息不对称,不能将公告视为唯一的信息披露渠道,其他信息也将对日内波动率产生影响。 为了更好地解决日内波动率预测的问题,文章提出一种新的日内波动率乘积拆解方式:日度波动率、日内波动率确定性趋势、日内波动率随机项,在确保统计量的一致性的前提下,提出了两步估计方法,对参数实现了简洁直观的估计。 04 文章模型 模型主要分为两部分: 第一部分,对波动率进行乘积分解。文章在日度方差项和日内方差趋势项分解基础上,加入了一项随机的日内方差分量,日内连续回报与三个分量的等式关系是模型的核心假设。 第二部分,对模型进行分步求解。文章按照顺序分别估计乘积分解中的三项分量,在确定日度方差项之后,通过日度方差项与日内波动率确定性趋势项的关系推导出后者的估计值,最后利用GARCH模型求解随机日内方差分量。 4.1.波动率的乘积分解 文章认为,高频波动率受到三个因素的影响: (1)日度波动率。日度波动率直接决定了当天日内所有波动率的整体水平,因此可以作为高频波动率的基准; (2)日内波动率确定性趋势。研究发现,日内波动率的变化呈现出确定性的规律,开盘、收盘的波动性高于其他时段,故可以将这种确定性趋势单独拆解 (3)日内波动率随机项。除了以上两个因素的影响之外,高频波动率还呈现出随机变化的规律,我们可以构建随机模型刻画该特征。具体的,我们假定条件方差是日方差、日内方差和随机日内方差的乘积: 其中h_t是日方差分量,对某一确定的交易日来说h_t是确定的;s_i是日内方差分量,对某一确定的日内时间来说s_i是确定的,这一项反映的是日内波动率确定性趋势;q_(t,i)是随机的日内方差分量,E(q_(t,i))=1,这一项反映的是日内波动率随机项;ε_(t,i)~N(0,1)是独立同分布的误差项。 4.2.模型的分步求解 由于模型中三个分项通过乘积形式叠加在一起,我们难以同时对所有变量进行估计,因此在求解中我们按照顺序分别估计这些参数,估计过程分为两步:首先通过多因素风险模型确定日方差h_t,并由(1)式推导出日内方差s_i;最后通过GARCH模型刻画随机项q_(t,,i)的聚集效应并对其进行求解。 第一步,对于日方差h_t的确定,由于模型的本质是对未来高频波动率做出预测,因此t时刻波动率的预测值作为日方差的估计h ?_t。作者采用与时间序列分析相结合的多因素风险模型,风险因素主要包括行业因素、流动性因素(资本化程度、成交量、价差)、动量因素等。实际上,很多研究表明,更简洁的GARCH模型或RV(实现波动率)模型也可以实现对日度波动率的有效预测。 对于日内方差s_i的求解使用历史均值的方法。由于s_i表示的是日内波动率的确定性趋势,不同日期的日内趋势均相同,且随机趋势项期望值为1,因此在剔除日度波动率的影响之后,我们可以将剩余两项的历史均值作为日内确定性趋势项的估计。具体符号推导上,作者将(1)式化成等价形式: 对(2)式两边求期望: 因此,在总交易日数为T的情况下,对调整后的收益平方求均值即可得到日内趋势项的估计量s ?_i: 第二步,借助GARCH模型刻画随机日内方差q_(t,,i)的运动过程。在剔除日度波动率和日内波动率确定性趋势两项的影响之后,我们可以构建随机模型刻画剩余波动率的随机变化的规律,由于波动率随机项具有聚集(Cluster)的特征,作者用GARCH(1,1)过程为剩余波动率建模,得到q_(t,,i)的预测值: 上述方法本质上是一种分步估计方法而非直接寻找最优估计,很多情况下两步估计可能导致估计误差不断累积从而使得估计结果难以有效收敛,但实际上通过GMM框架进行分析,我们可以证明在模型的假设下分步法得到的估计量具有一致性,因此这里的两步估计可以帮助我们简洁高效地实现对模型的确定。 05 文章实证分析 5.1.数据 为了验证模型的有效性,文章使用2721支股票在2000年4月到6月的交易数据进行实证检验。具体的,文章作者在(1)单只股票;(2)多只股票分别建模;(3)多只股票按组联合建模三种情形下进行模型估计和预测,并通过损失函数来检验预测的准确性。 结果表明,按照模型中的方式进行分解可以有效提高日内高频波动率的预测准确度,扩充样本数据可以提高模型参数估计的稳定性,使用相似特征的公司联合估计参数具有更高的预测准确度和稳定性。 5.2.单只股票 文章使用瓦莱罗能源公司(VLO)股票作为示例,用10分钟日内收益除以日波动率预测值h ?_t,得到经调整的收益率具有清晰的日内波动模式。图1绘制了39个10分钟区间日内收益的标准差,在每个交易日的起始收益标准差有明显的增加,中间相对平缓,最后以小幅上升接近结束。实际上,这种日内波动率变化的模式具有一定的普适性,很多关于日内收益的研究均观察到这种日内波动的模式。 接着文章作者用GARCH(1,1)模型对剩余波动率进行预测。对于GARCH(1,1)模型来说,关键的统计量是表征模型持久性的参数(α+β),该值越接近1表示波动率的聚集效应越强,对波动率的估计越持久。表1为VLO公司的预测结果,其中参数(α+β)为0.814,略低于常规的GARCH模型,这是因为作者之前对回报进行了调整(除以日方差变量)。 图2中从上而下依次展示的分别是VLO公司股票的对数回报、日度波动率预测、日内波动率确定性趋势估计、日内波动率随机项以及三项乘积的平方根。从图中可以看出,对高频波动率的估计结果较为平稳,对数回报波动幅度较大的地方与乘积平方根较大的地方基本相符合。 5.3.多只股票 5.3.1. 分开估计 文章首先对2000年4月至5月期间的2721支股票进行分别单独的估计。为了消除10分钟收益中存在的自相关性,文章作者通过拟合ARMA(1,1)模型对数据进行预过滤,数据点总数超过420万。 在图3中,横轴的公司从左到右按照交易强度(由日均交易量表征)从弱到强排列,纵轴表示经过GARCH(1,1)模型预测后的参数值(α+β)。可以看到,总体上(α+β)值随公司交易强度上升而增大,该结果说明对于流动性较强的公司模型波动率估计的持久性更强;一些交易强度较低的公司(α+β)值远小于1,即对于流动性较差的公司,模型的估计持久性相对较差,因此对于这些交易不活跃的公司,不宜对其波动率进行单独的估计和预测。 5.3.2. 按组估计 正如5.3.1节末所讨论的,对于流动性较差的公司,由于交易数据存在某些异常值可能对模型结果产生较大的冲击,预测结果可能稳定性不高、收敛较慢。因此文章作者希望通过对公司进行分组联合估计的方法提升估计的稳定性。 文章作者分别研究了3种将公司分组的方式:INDUST模式是按行业分组(共计54个行业);LIQUID模式根据每天的平均交易量进行分组(共计50个组);ONEBIG模式表示将所有公司合并成一个组,使用统一的参数对GARCH模型进行估计。 图4展示了2000年4月至5月期间按流动性分组的日内GARCH模型估计结果,公司的流动性从左到右递增。可以看到,分组之后大多数组的(α+β)值集中在0.9以上,这说明将公司按流动性分组后的估计持久性较强,估计得到了有效改进。 5.4.检验预测准确性 在这一部分中,文章使用损失函数检验模型的有效性,并且对不同建模方式的准确性进行比较:在每个时点得到之后10分钟波动率的预测值,将预测值与实际股票涨跌幅度进行对比,估算两者之间的差距。为了防止日波动率和确定性趋势项的不同导致计算权重出现偏离,在对比模型预测和实际涨跌时我们剔除这两个因素的影响,具体方式如下。联立4.1节中的(1)式和4.2节中的(5)式,得到: 由(7)式,将不同分组方式下的预测结果q_(t,i)^f与z_(t,i)^2=r_(t,i)^2/(h_t ) ?(s_i ) ?进行比较可以度量误差项,进而检验预测的准确性。 5.4.1.损失函数 文章作者使用两种损失函数,对数似然损失LIK(Out-of-Sample Likelihood)和均方误差MSE(Mean Squared Error)来刻画预测的准确性。似然函数表示在给定参数下观察到实际数据的概率大小,似然函数值越高表示模型越精确,实际使用中为了便于操作我们一般使用对数似然函数的相反数;均方误差MSE是指参数估计值与参数实际值的差的平方的期望值,损失函数的值越小,说明预测模型描述数据具有越高的精确度。 在文章中,两个损失函数的具体表达式为 最终的预测误差表示为: 5.4.2. 不同分组方式预测结果的比较 将交易数据代入5.4.1节中的损失函数,并分别计算5种模式(NSTOCH、UNIQUE、INDUST、LIQUID、ONEBIG)下的预测误差,其中NSTOCH代表没有考虑随机日内方差项q_(t,i)的模型,UNIQUE代表对单个公司分别预测的模型,余下的INDUST、LIQUID、ONEBIG的含义与5.3.2节中一致。在两种损失函数下,5种模式的预测结果表现的两两对比如图5所示。 图5中表格里的数值表示在所有的股票中行坐标方法优于列坐标方法的比例。例如LIK损失函数表格的第3行第2列的0.795代表对于79.5%的公司,UNIQUE模式表现优于NSTOCH模式。 由图5可以得出以下结论:没有考虑随机日内方差项q_(t,i)的NSTOCH模式是5种模式中表现最差的;表现次差的是对单个公司分别预测的UNIQUE模式;剩余的按流动性分组的LIQUID模式、按行业分组的INDUST模式和将所有公司合并成一个大组的ONEBIG模式的预测准确性较为接近,但整体看ONEBIG模式最为理想。相较于不分组,分组的效果更理想;对条件方差的乘积拆解中,添加日内波动率随机项q_(t,i)有助于提高预测准确性。 06 国内市场实证 我们将文章中的方法应用于国内市场,希望检验模型方法在国内市场的有效程度。由于上证50 ETF期权是国内市场中交易最活跃的期权,对50 ETF波动率的预测在期权定价方面具有较高实战价值,因此我们选取上证50 ETF作为预测高频波动率的目标资产。 尽管文章结论显示使用多个股票同时进行联合估计可以提高估计结果的有效性,我们这里还是选取了单一资产,主要是有三点考量:(1)上证50 ETF自身交易活跃,流动性高,不容易受到异常数据的影响;(2)文章中对股票分别建模有效性相对较弱一定程度上是由于样本数量较小导致估计结果不够稳定,联合估计增大了样本容量,而我们可以使用较长时间区间的样本对预测上证50 ETF波动率,从而避免了样本容量较小的问题;(3)上证50 ETF作为指数基金,其风险特征与股票有较大的差异,风格上与其他宽基指数也有所不同,因此将其与其他资产的样本合并估计可能导致结果有偏。 6.1.日内高频波动率预测 我们采用2017年2月到2022年1月上证50ETF(SH.510050)的交易数据,对超过29万个数据点运用文章中的模型进行分析预测。 不同于文章中用多风险因素模型估计h_t的方法,我们采用更简洁GARCH模型预测h_t。将上证50ETF的日度收益率数据代入GARCH(1,1)模型得到的(h_t ) ?,类似于文章中对日内波动率确定性趋势s_i的计算方法,可以得到其估计值s ?_i。对于日内波动率随机项q_(t,,i),我们用GARCH(1,1)过程对其建模,得到q_(t,,i)的预测值q_(t,i)^f。 6.2.检验模型有效性 我们希望检验模型在上证50 ETF上的有效性。为了更好直观的对比模型有效性,我们选取两个基准模型:(1)使用不含随机项的模型,即文章中的“NSTOCH”模型;(2)直接使用波动率模型预测高频波动率,即不考虑日度方差以及日内波动率趋势项,直接用GARCH模型对高频数据建模。 我们借鉴文章的方法使用MSE函数来刻画预测的准确性: 我们使用2/3的数据(2017年2月16日到2020年5月22日)作为训练集,用于估计GARCH模型的参数以及日内趋势项,剩余1/3的数据(2020年5月25日到2022年1月25)作为样本外测试集,在测试集内得到波动率预测q_(t,i)^f,代入到损失函数MSE中,得到L=4.637。 (1)将结果与NSTOCH模型得出的预测结果相比较:对于未添加随机日内方差项的模型而言,将q_(t,i)^f视作常数,由(7)式有E(z_(t,i)^2)=E(q_(t,i)),计算后代入到损失函数MSE中,得到L=4.855。 (2)再将结果与直接用GARCH模型对分钟数据建模得出的预测结果相比较:对分钟数据直接运用GARCH模型,得到相应的波动率预测q_(t,i)^f后代入到损失函数MSE中,得到L=4.856。 可以看到,添加随机日内方差项的模型的预测结果准确性优于NSTOCH模型和直接用GARCH模型对高频数据的预测结果。 07 总结讨论 本文基于分解模型对日内股票波动率进行预测,将日内波动率分解为日度波动率、日内波动率确定性趋势和日内波动率随机项的乘积,通过两步计算得到参数的估计,并验证了变量的统计性质。在实证检验中,波动率分解模型可以提高高频波动率的预测有效性;另外,扩充样本数据可以提高模型参数估计的稳定性,相比于对每个公司分别建模,使用相似特征的公司联合估计参数具有更高的预测准确度和稳定性。 我们以上证50 ETF从2017到2022年的分钟频率高频交易数据为基础,借鉴文章的波动率分解模型对国内市场进行实证研究。结果显示,模型在预测结果的有效性上表现优于不含随机项的NSTOCH模型以及直接对高频数据使用GARCH模型,一定程度上验证了波动率分解模型在国内市场的有效性。 详细报告请查看20220422发布的国泰君安金融工程专题报告《基于波动率分解的高频波动率预测模型——学界纵横系列之三十八》 法律声明: 本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。 根据《证券期货投资者适当性管理办法》,本订阅号所载内容仅面向国泰君安证券客户中的专业投资者。因本资料暂时无法设置访问限制,若您并非国泰君安证券客户中的专业投资者,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。 市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。 本订阅号所载内容版权仅为国泰君安证券所有。订阅人对本订阅号发布的所有内容(包括文字、影像等)进行复制、转载的,需明确注明出处,且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。