【国君金工-学界纵横系列】量化建模需放下“奥卡姆剃刀”
(以下内容从国泰君安《》研报附件原文摘录)
点击蓝字 关注我们 陈奥林 、杨 能 ?? 01 引言 如无必要,勿增实体。 ——威廉·奥卡姆 良性过拟合现象的提出。大量的文献通过实证分析验证了更加复杂的机器学习模型相对于简单的线性模型能够带来更高的组合收益。直觉上,根据奥卡姆剃刀原理,简约的模型似乎更加可靠,更不容易过拟合。这种通过大量参数构成的复杂非线性模型在样本外表现更佳这一反直觉现象被称之为“良性过拟合”(Bartlett et al., 2020;Tsigler and Bartlett, 2020),我们该如何理解反直觉的良性过拟合? 本篇报告推荐学者Bryan Kelly、Semyon Malamud和Kangying Zhou合作的《THE VIRTUE OF COMPLEXITY IN RETURN PREDICTION》。文献不仅实证了机器学习模型的样本外效果,而且基于随机矩阵理论证明了样本外预测精度和策略表现随着模型复杂度的提升而提升,帮助我们更好理解良性过拟合现象。 换言之,奥卡姆剃刀原理在收益预测中并不适用。 ?? 02 问题的提出 假设真实金融资产收益由下式构成: R为资产收益,G为一组已知的有预测能力的投资信号,f为未知的函数。与其徒劳地猜测f的具体形式,我们不如使用Hornik et al. (1990)提出的近似法则,f可近似为: 其中,S是一个已知的非线性激活函数,P需足够大。 由此,资产收益可由以下线性回归表示: 一个简单的模型通常满足特征数量P远小于样本数量T,此时模型具有较低的方差,但是对于式1中f形式的估计比较粗糙。相反,在一个复杂模型中,P大于T,模型具备更准确估计f的潜力,但是也会带来更大的方差,更需要进行特征压缩。因此,我们的核心问题是: 投资者该如何选择模型的复杂度P?复杂模型是真能增强预测效果还是仅会带来更大的预测方差和偏差? ?? 03 研究结论 基于理论假设,在P大于T的复杂模型中,随着复杂度P的提升,样本外预测精度和策略表现线性上升,且使用合理的特征压缩技术后,模型预测表现进一步提升。 因此,投资者应当尽可能在模型中加入有效信息,提升模型复杂度,从而逼近真实的收益生成过程。换言之,在真实的收益生成过程是未知的情况下,通过增强模型复杂度带来的好处(更加精确的f估计等)大于严重参数化带来的坏处(更大的方差等)。 上述结论的理论证明主要基于以下两点假设:一是机器学习模型简化为高维线性回归;二是仅对于单一资产收益率进行预测。上述简化使得理论证明更加方便,并不影响核心结论。 在传统OLS中,当P接近T时,协方差阵变得不稳定,导致预测方差大幅上升,样本外拟合优度快速下降,是常见的过拟合现象。而在机器学习模型中,金融资产的真实收益生成过程 极度复杂,其未知真实特征数量P理应远大于样本点数量T。因为正确的模型形式本应满足P大于T,所以,机器学习建立的P大于T的模型不应被看做过拟合,所谓的良性过拟合只是合理参数化。 文章的第二个结论是:样本外拟合优度R方不能反映策略的优劣。即使预测R方为负,我们依然能够通过收益预测获取利润。这是因为R2受到预测方差的严重影响。R方过低只是表明策略波动较大。 文章的第三个结论是:策略表现受益于正则化,随着正则化的加大,预期收益下降,但策略波动下降更快,策略夏普有一定提升。 ?? 04 实证检验 文章使用15个预测指标用于预测美股权益市场指数CRSP月度收益。为了生成大量特征,文章采用了傅里叶随机特征RFF算法,其本质为两层神经网络,第一层神经网络权重随机生成,第二层权重通过回归得到。 定义c=P/T,由下图2、3可知,随着c由1上升至1000,组合预期收益和夏普比率等指标均有显著提升。其结果可通过稳健性检验如图4分样本检验。 ?? 05 总结 AI在资产管理中快速发展,但是基于机器学习模型的组合性质尚未能被充分理解。 研究发现,通过生成远大于大于训练集样本点个数的特征能够提升策略样本外的表现,而不用过于担心过拟合问题。 研究结论并不表明我们可以在模型中加入随机的投资信号,相反,作者鼓励:1.加入所有可获得的相关特征(因子)2.使用大量非线性模型,而非简单的线性模型。即使训练集数据不足,这样做同样能够带来更好的预测效果,特别是在使用了特征压缩技术后。 收益预测时,奥卡姆剃刀原则并不正确。这是因为从理论上说,只有当模型形式是正确的时候,简约模型才更可取,但正如BOX(1976)强调的,模型形式几乎从来都是错误的。因此,合乎逻辑的结论是,在相当一般的条件下,机器学习模型更可取。机器学习文献证明了大型非线性模型在广泛领域的成功,本篇文献结果再一次表明,机器学习模型在金融市场中同样适用。 法律声明: 本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。根据《证券期货投资者适当性管理办法》,本订阅号所载内容仅面向国泰君安证券客户中的专业投资者。因本资料暂时无法设置访问限制,若您并非国泰君安证券客户中的专业投资者,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。订阅人对本订阅号发布的所有内容(包括文字、影像等)进行复制、转载的,需明确注明出处,且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。
点击蓝字 关注我们 陈奥林 、杨 能 ?? 01 引言 如无必要,勿增实体。 ——威廉·奥卡姆 良性过拟合现象的提出。大量的文献通过实证分析验证了更加复杂的机器学习模型相对于简单的线性模型能够带来更高的组合收益。直觉上,根据奥卡姆剃刀原理,简约的模型似乎更加可靠,更不容易过拟合。这种通过大量参数构成的复杂非线性模型在样本外表现更佳这一反直觉现象被称之为“良性过拟合”(Bartlett et al., 2020;Tsigler and Bartlett, 2020),我们该如何理解反直觉的良性过拟合? 本篇报告推荐学者Bryan Kelly、Semyon Malamud和Kangying Zhou合作的《THE VIRTUE OF COMPLEXITY IN RETURN PREDICTION》。文献不仅实证了机器学习模型的样本外效果,而且基于随机矩阵理论证明了样本外预测精度和策略表现随着模型复杂度的提升而提升,帮助我们更好理解良性过拟合现象。 换言之,奥卡姆剃刀原理在收益预测中并不适用。 ?? 02 问题的提出 假设真实金融资产收益由下式构成: R为资产收益,G为一组已知的有预测能力的投资信号,f为未知的函数。与其徒劳地猜测f的具体形式,我们不如使用Hornik et al. (1990)提出的近似法则,f可近似为: 其中,S是一个已知的非线性激活函数,P需足够大。 由此,资产收益可由以下线性回归表示: 一个简单的模型通常满足特征数量P远小于样本数量T,此时模型具有较低的方差,但是对于式1中f形式的估计比较粗糙。相反,在一个复杂模型中,P大于T,模型具备更准确估计f的潜力,但是也会带来更大的方差,更需要进行特征压缩。因此,我们的核心问题是: 投资者该如何选择模型的复杂度P?复杂模型是真能增强预测效果还是仅会带来更大的预测方差和偏差? ?? 03 研究结论 基于理论假设,在P大于T的复杂模型中,随着复杂度P的提升,样本外预测精度和策略表现线性上升,且使用合理的特征压缩技术后,模型预测表现进一步提升。 因此,投资者应当尽可能在模型中加入有效信息,提升模型复杂度,从而逼近真实的收益生成过程。换言之,在真实的收益生成过程是未知的情况下,通过增强模型复杂度带来的好处(更加精确的f估计等)大于严重参数化带来的坏处(更大的方差等)。 上述结论的理论证明主要基于以下两点假设:一是机器学习模型简化为高维线性回归;二是仅对于单一资产收益率进行预测。上述简化使得理论证明更加方便,并不影响核心结论。 在传统OLS中,当P接近T时,协方差阵变得不稳定,导致预测方差大幅上升,样本外拟合优度快速下降,是常见的过拟合现象。而在机器学习模型中,金融资产的真实收益生成过程 极度复杂,其未知真实特征数量P理应远大于样本点数量T。因为正确的模型形式本应满足P大于T,所以,机器学习建立的P大于T的模型不应被看做过拟合,所谓的良性过拟合只是合理参数化。 文章的第二个结论是:样本外拟合优度R方不能反映策略的优劣。即使预测R方为负,我们依然能够通过收益预测获取利润。这是因为R2受到预测方差的严重影响。R方过低只是表明策略波动较大。 文章的第三个结论是:策略表现受益于正则化,随着正则化的加大,预期收益下降,但策略波动下降更快,策略夏普有一定提升。 ?? 04 实证检验 文章使用15个预测指标用于预测美股权益市场指数CRSP月度收益。为了生成大量特征,文章采用了傅里叶随机特征RFF算法,其本质为两层神经网络,第一层神经网络权重随机生成,第二层权重通过回归得到。 定义c=P/T,由下图2、3可知,随着c由1上升至1000,组合预期收益和夏普比率等指标均有显著提升。其结果可通过稳健性检验如图4分样本检验。 ?? 05 总结 AI在资产管理中快速发展,但是基于机器学习模型的组合性质尚未能被充分理解。 研究发现,通过生成远大于大于训练集样本点个数的特征能够提升策略样本外的表现,而不用过于担心过拟合问题。 研究结论并不表明我们可以在模型中加入随机的投资信号,相反,作者鼓励:1.加入所有可获得的相关特征(因子)2.使用大量非线性模型,而非简单的线性模型。即使训练集数据不足,这样做同样能够带来更好的预测效果,特别是在使用了特征压缩技术后。 收益预测时,奥卡姆剃刀原则并不正确。这是因为从理论上说,只有当模型形式是正确的时候,简约模型才更可取,但正如BOX(1976)强调的,模型形式几乎从来都是错误的。因此,合乎逻辑的结论是,在相当一般的条件下,机器学习模型更可取。机器学习文献证明了大型非线性模型在广泛领域的成功,本篇文献结果再一次表明,机器学习模型在金融市场中同样适用。 法律声明: 本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。根据《证券期货投资者适当性管理办法》,本订阅号所载内容仅面向国泰君安证券客户中的专业投资者。因本资料暂时无法设置访问限制,若您并非国泰君安证券客户中的专业投资者,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。订阅人对本订阅号发布的所有内容(包括文字、影像等)进行复制、转载的,需明确注明出处,且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。