首页 > 公众号研报 > 量化行业配置:策略梯度算法

量化行业配置:策略梯度算法

作者:微信公众号【Allin君行】/ 发布时间:2024-06-06 / 悟空智库整理
(以下内容从浙商证券《量化行业配置:策略梯度算法》研报附件原文摘录)
  点击上方“Allin君行” ,关注我们 摘要 【核心观点】 本文利用强化学习领域中的策略梯度类算法改进量化行业配置模型,从特征提取、样本构造,和参数更新多个方面进行优化,提供一个风险收益性价比更优的周频价量行业配置策略。 基于价值的算法实现行业轮动的得与失: 强化学习算法在因子挖掘、收益预测、投资组合构建,和交易执行等多个投资环节均有应用。在前期研究中,我们以强化学习中的时序差分算法作为切入点,对指数择时和行业配置进行了实践。 在跟踪行业配置模型过程中,权益市场行情经历了较大波动,模型效果也受到了一定挑战,在年初2月2日、2月5日仅2个交易日就出现了约4.7%的超额回撤,之后超额恢复增长趋势,但其波动水平明显上升。这一回撤引出了策略模型亟待解决的问题——如何降低风格突变对策略模型的扰动。周频调仓使信号的敏感度下降,在市场风格出现日级别单边偏移的情况下被动承受亏损;另一方面,由于我们在指数择时和行业配置中使用的奖励(reward)是和未来5日收益率高度正相关的指标,亏损期间的负反馈将直接影响模型学习的方向,并且当市场风格恢复时,模型又需要新的时间重新调整适应。在这种情况下,强化学习框架所带来的动态适应成了双刃剑,即使得策略模型能在不同的局部最优间平滑过渡,又使得短时间的行情扰动影响策略模型所接收到的市场反馈。 策略梯度类算法如何提升行业轮动策略的风险收益比? 策略梯度类算法在决策过程中,不再对行业进行打分判断,即不再评估每个行业的配置价值,而是调整策略模型配置该行业的概率,通过一段时间行业配置的收益反馈调整行业配置的概率分布。 在市场风格出现日级别单边偏移的情况下,直接修改每个行业的配置价值的模型大概率会被动承受亏损;另一方面,原有配置模型中使用的奖励是和未来5日收益率高度正相关的指标,亏损期间的负反馈将直接影响模型学习的方向,并且当市场风格恢复时,模型又需要新的时间重新调整适应。在这种情况下,修改行业配置的概率分布,而非修改行业配置得分,能有效避免短时间的行情扰动对决策的影响。 优化后的行业配置策略回测表现如何: 整体上来看,补充了价量形态的视觉信息,使用任一策略梯度算法均能有效提升其组合收益。经过预训练对比,表现最优的模型为依据SAC算法构建的配置模型产生的行业组合,在2021年6月以来(统计至2024年4月30日)年化超额收益在16%以上,相较于常见宽基指数(中证800)的超额收益或在22%以上。策略表现相较于此前的基于价值算法构建的模型,有效降低了回撤和波动率水平。 以下内容节选自20240605发布的浙商证券金融工程专题报告《量化行业配置:策略梯度算法》。 01 研究背景 我们在前期研究中探索了强化学习领域中的时序差分算法在行业配置中的应用,从算法视角对行业配置进行了补充,构造了周频跟踪的行业配置策略。本文将回顾前述模型在实战中遇到的问题,讨论并测试通过策略梯度类的强化学习算法实现行业配置模型,进一步提升行业配置策略的业绩表现。 1.1. 用强化学习实现择时和配置模型 强化学习算法在因子挖掘、收益预测、投资组合构建,和交易执行等多个投资环节均有应用。在前期研究中,我们以强化学习中的时序差分算法作为切入点,对指数择时和行业配置进行了实践。 (1)利用DQN实现指数择时:基于日频价量构建择时信号,在宽基指数上表现不俗,沪深300/中证500/中证1000指数上的择时年化超额收益分别为5.73%/12.65%/15.60%(2019至2022年),并迁移至申万一级行业指数进行了测试,在没有进行超参数调优(有别于微调fine-tuning)的情况下在11/31个行业指数上依然能够实现10%以上的年化超额,表明择时策略框架具备有效性和泛化能力。详细请参见报告《量化投资算法前瞻:强化学习》。 (2)在指数择时基础上,引入交叉注意力机制,进一步得到行业配置模型:通过时序神经网络实现单行业价量特征提取,再结合交叉注意力机制捕捉行业间的联动关系,依据双网络DQN算法实现更新,由模型可得到每期行业配置观点,整体模型的工作原理如图3所示。经过预训练得到的模型在2021.06至今(统计至2024.04.30)相较于中证800年化超额收益为17.75%,组合累积收益情况见图4。详细模型请参见报告《强化学习在行业配置端的应用》。 在跟踪行业配置模型过程中,权益市场行情经历了较大波动,模型效果也受到了一定挑战,在年初2月2日、2月5日仅2个交易日就出现了约4.7%的超额回撤,之后超额恢复增长趋势,但其波动水平明显上升。 这一回撤引出了策略模型亟待解决的问题——如何降低风格突变对策略模型的扰动。周频调仓使信号的敏感度下降,在市场风格出现日级别单边偏移的情况下被动承受亏损;另一方面,由于我们在指数择时和行业配置中使用的奖励(reward)是和未来5日收益率高度正相关的指标,亏损期间的负反馈将直接影响模型学习的方向,并且当市场风格恢复时,模型又需要新的时间重新调整适应。在这种情况下,强化学习框架所带来的动态适应成了双刃剑,即使得策略模型能在不同的局部最优间平滑过渡,又使得短时间的行情扰动影响策略模型所接收到的市场反馈。 本文将通过回测实验探索行业配置策略的优化方法,通过使用策略梯度类算法,并修改回测逻辑实现行业配置模型的迭代升级。 1.2. 策略梯度类算法提供优化思路 强化学习的目标是为智能体(agent)找到一个最优的行为策略从而获取最大的回报。策略梯度方法的主要特点在于直接对策略进行建模并优化。不同于此前使用的Q学习,是基于价值的方法,模型学习如何正确评估每种动作的价值,从而实现决策。 简单阐述策略梯度方法的工作原理即为,如果某一动作使得最终回报提高,那么增加这个动作出现的概率,反之,减少这个动作出现的概率。因此在策略梯度类算法中,策略评估的是动作对于回报的影响,没有考虑状态或者其他因素;策略调整的是动作出现的概率,而不再给具体的动作打分(评估动作价值,区别于基于价值的算法,如之前使用的DQN)。策略通常被建模为由 θ 参数化的函数 π_θ (a|s)。累积回报(目标函数)的值受到该策略的直接影响,因而可以采用很多算法来对 θ 进行优化来最大化回报,也就是目标函数。 本文选取了3种经过优化并且在工业领域已验证有效的策略梯度算法:近端策略优化算法(PPO),使用熵正则化的演员-评论家算法(SAC),和深度确定性策略梯度算法(DDPG,以下均使用英文缩写指代)。PPO通过使用代理损失函数来近似 KL 散度,在训练效率和计算开销之间取得了良好的平衡。SAC是一种基于最大熵理论的演员-评论家算法,通过引入熵的概念来鼓励策略的探索性,同时采用软更新值函数来提高训练的稳定性。DDPG是基于Q学习的演员-评论家算法,与传统的随机策略梯度方法不同,它采用确定性策略(即给定状态下总是产生同一个动作),在连续动作空间问题中更为高效。 本文所使用的策略梯度算法在强化学习体系中的分类如图5所示,以便于读者理解各算法之间的联系和区别。我们将通过回测实验来对比各算法在行业配置中的有效性。 02 利用策略梯度类算法实现行业轮动 2.1. 价量数据预处理 我们以周频调仓的行业配置策略为目标,没有使用财报或分析师报告中的月频或季频更新的数据,以市场中多方交易者博弈的结果,也就是日频价量数据作为主要输入特征。 在对日内价量进行处理时,原模型保留了日频价量的全部信息(OHLC +Volume),进行时序上的标准化,即滚动窗口z-score,其中价格数据统一使用收盘价历史数据进行z-score,保留了日内价格之间的相对关系。尽管这种处理方法一定程度上保留了历史信息,但受限于2个回看窗口的时间步长(计算z-score的区间窗口,和输入模型的价量数据回看窗口)。另一方面,经过z-score标准化的价量指标只表达目前的价格或成交量相较于历史处于何等水平,并不体现价格或成交量的变化趋势。因此,我们引入不同时间维度的价格趋势信息作为补充。 本文借鉴Wood, K. 等人在趋势预测模型中的特征处理方法(详见2024/3/28外发报告《含交叉注意力机制的趋势预测模型》),使用波动率调整后的收益率作为输入特征,即: 其中回看时长为t‘, t‘ ∈ [1,21,63,126, 252],σ_t^(i)是资产i在t时刻的波动率,计算窗口约为过去60个交易日,而是资产i在过去 t‘ 时间区间内的收益率。经过预处理之后,合并后的价量特征如表1所示。 2.2. 价量数据的视觉信息提取 在收益率和标准化价量数据之外,我们借鉴技术分析或K线形态分析方法,并训练模型来实现图像信息捕捉。利用标准化后的日频价量信息作为二维图像信息,即时间维度×价量特征维度的一个灰度图。本文使用卷积神经网络对行业指数日频价量形态进行表征学习,经过卷积层和全连接层的视觉信息,将和2.1中的收益率特征拼接组成完整的特征向量。 经过以上特征提取,对任一交易日t可得到资产i的表征向量,再使用时序表征模型按照日期顺序进行编码。我们沿用LSTM-HA作为行业指数时序特征提取模型,用时序神经网络递归过程中得到的每个历史隐含状态来增强最终的向量表征,并增加时序注意力(historical attention),能够更充分地捕捉到行业指数自身特征的时序相关关系。 2.3. 利用策略梯度类算法训练模型 我们沿用了之前的配置策略中的设置方法: 状态:各行业指数的在回看区间内的行情数据; 动作:按照策略所选的行业,等权持有调仓; 单步奖励:配置行业组合收益,并扣除手续费 目标函数:连续M步的收益序列对应的夏普比。 在演员-评论家结构的算法中(PPO和SAC),我们对Critic网络不再进行结构上的调整,使用算法原本的全连接网络(FC2)结构。 03 回测实验 3.1. 回测设置 本文以申万一级行业指数作为行业投资标的,实现相应的配置策略,通过回测实验来分析策略框架的可行性及有效性。本文使用2016年初至2021年5月的行业指数数据作为预训练区间,在此数据集上依据不同算法或特征工程组合训练相应的行业配置模型,根据风险调整收益等指标选取最优的模型结构。使用2021年6月至今(统计至4月30日)作为验证集,按时间顺序遍历并继续更新模型,得到调优后的行业配置模型的近期表现。 在预训练阶段,模型在训练数据上会进行多幕遍历或重复小批次学习,根据不同算法进行操作,每一幕(episode)模型都会按照时序将所有样本进行遍历。而在观测数据上,则完全模拟实际场景,按照时序遍历样本做出预测。 3.2. 预训练阶段 根据1.3节中每种策略梯度算法实现行业配置模型的参数更新,每隔5个交易日生成配置行业组合并统计未来5日收益得到回测结果;此外,我们对比了增加视觉信息(VI)前后每种算法下的策略模型表现。由表5可知,这部分信息增量确实带来了策略性能上的提升。 在策略梯度算法中,综合样本内和验证集上表现最好的是利用SAC构造的行业配置模型,因此选择SAC算法来实现最终的行业配置模型。 收益角度来看,策略模型每年均跑赢行业等权基准,不同年份表现有一定差异,但相较于前期价值模型有明显改善。原模型在2018年相对收益为谷值,而改进后的模型自2016年以来相对收益呈上升趋势。整体上配置策略相较于基准指数的收益提升较明显,回撤控制效果较好。在行业等权基准回撤幅度最大的2018年(回撤幅度为-34.54%),行业配置多头的最大回撤相应为-24.12%。因配置策略仅持有5个行业,而等权基准持有全行业实现了风险分散,但从年化波动率角度,行业配置多头相较于基准并未有明显增大,部分年份略有缩小,整体上持平。 本文保留了增添视觉信息前后的最好模型,分别是基于DDPG的配置模型和基于SAC和视觉信息补充的配置模型,在验证集上进行了回测(注:不含多幕训练,仅按照时间顺序进行一次遍历和更新),以避免所选择的最优模型是预训练阶段过拟合的结果。 由上述结果可知,局部形态的视觉信息提取,结合SAC策略梯度算法,实现了对周频行业配置策略的优化。此外,我们对比了配置组合相较于行业等权基准和宽基指数中证800 的超额收益。原模型相较于中证800的超额夏普比率高于其相较于行业等权基准的对应夏普比率,也从侧面说明模型本身对于选择截面上相对较优的行业挖掘能力不足;而改进后的配置模型,相较于等权基准的超额收益更高、跟踪更加稳定,配置能力更强。 超额回撤方面的对比,也体现了基于策略算法的量化配置策略对于短时异常波动的抗扰能力。 表5中对比了原模型(基于价值,双网络DQN算法)和优化后表现最优的策略梯度模型(基于策略,SAC算法,补充局部信息)回撤幅度最大的5次历史表现。在我们最关注的2023年底至2024年2月初的行情中,原模型超额回撤自2023年12月开始,在今年02/07达到净值最低点,至今尚未达到新高,时间跨度已达100交易日以上。相比之下,同时期下的策略梯度模型已在今年03/20实现回撤修复,最大回撤幅度8.40%也明显小于原模型(11.01%),恢复周期为55个交易日,可见短时间内或个别样本的异常反馈,对动作(配置行业)分布概率的影响,要小于其对动作价值的影响。 结合新旧模型最近的行业配置观点(表7、8),策略梯度模型对于煤炭及石油石化行业的观点相较于原模型已出现明显变化。我们也将持续跟踪两种不同模型的样本外表现,以更好的观测不同行情下的策略表现,寻找更优的量化行业配置方案。 04 总结和展望 我们在前期研究中探索了强化学习领域中的时序差分算法在行业配置中的应用,从算法视角对行业配置进行了补充,构造了周频跟踪的行业配置策略。通过时序神经网络实现单行业价量特征提取,再结合交叉注意力机制捕捉行业间的联动关系,依据时序差分算法实现更新,由模型可得到每期行业配置观点。在跟踪行业配置模型过程中,权益市场行情经历了较大波动,模型效果也受到了一定挑战,在年初出现了约4.7%的超额回撤,之后超额恢复增长趋势,但其波动水平明显上升。这一回撤引出了策略模型亟待解决的问题——如何降低风格突变对策略模型的扰动。 本文通过回测实验探索行业配置策略的优化方法,通过使用策略梯度类算法,并修改回测逻辑实现行业配置模型的迭代升级。在特征工程方面我们也进行了补充,在收益率和标准化价量数据之外,我们借鉴技术分析或K线形态分析方法,并训练模型来实现图像信息捕捉。通过预训练筛选,我们选择业绩表现最优的SAC算法,来实现最终的行业配置模型,并采用了价量特征和视觉特征组合的特征提取方案。通过算法模型挖掘的行业配置信号,如何与行业中观指标组合,即算法视角与主观视角如何融合,是行业配置策略未来优化值得尝试的方向。 05 风险提示 本报告构建的策略框架中所提及的交易均指模拟交易,回测结果是基于历史数据的统计归纳,收益风险指标不代表未来,模型力求自适应跟踪市场规律和趋势,但仍存失效可能,不构成投资建议,须谨慎使用。 报告作者: 陈奥林 从业证书编号 S1230523040002 详细报告请查看20240605发布的浙商证券金融工程专题报告《量化行业配置:策略梯度算法》 特别声明: 法律声明: 本公众号为浙商证券金工团队设立。本公众号不是浙商证券金工团队研究报告的发布平台,所载的资料均摘自浙商证券研究所已发布的研究报告或对报告的后续解读,内容仅供浙商证券研究所客户参考使用,其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,使用本公众号内容应当寻求专业投资顾问的指导和解读,浙商证券不因任何订阅本公众号的行为而视其为浙商证券的客户。 本公众号所载的资料摘自浙商证券研究所已发布的研究报告的部分内容和观点,或对已经发布报告的后续解读。订阅者如因摘编、缺乏相关解读等原因引起理解上歧义的,应以报告发布当日的完整内容为准。请注意,本资料仅代表报告发布当日的判断,相关的研究观点可根据浙商证券后续发布的研究报告在不发出通知的情形下作出更改,本订阅号不承担更新推送信息或另行通知义务,后续更新信息请以浙商证券正式发布的研究报告为准。 本公众号所载的资料、工具、意见、信息及推测仅提供给客户作参考之用,不构成任何投资、法律、会计或税务的最终操作建议,浙商证券及相关研究团队不就本公众号推送的内容对最终操作建议做出任何担保。任何订阅人不应凭借本公众号推送信息进行具体操作,订阅人应自主作出投资决策并自行承担所有投资风险。在任何情况下,浙商证券及相关研究团队不对任何人因使用本公众号推送信息所引起的任何损失承担任何责任。市场有风险,投资需谨慎。 浙商证券及相关内容提供方保留对本公众号所载内容的一切法律权利,未经书面授权,任何人或机构不得以任何方式修改、转载或者复制本公众号推送信息。若征得本公司同意进行引用、转发的,需在允许的范围内使用,并注明出处为“浙商证券研究所”,且不得对内容进行任何有悖原意的引用、删节和修改。 廉洁从业申明: 我司及业务合作方在开展证券业务及相关活动中,应恪守国家法律法规和廉洁自律的规定,遵守相关行业准则,遵守社会公德、商业道德、职业道德和行为规范,公平竞争,合规经营,忠实勤勉,诚实守信,不直接或者间接向他人输送不正当利益或者谋取不正当利益。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。