华泰证券-华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合-190422

《华泰证券-华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合-190422(28页).pdf》由会员分享,可在线阅读,更多相关《华泰证券-华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合-190422(28页).pdf(28页精品完整版)》请在悟空智库报告文库上搜索。
Bootstrap 是一种可行的构建“平行 A 股市场”的重采样方法
Bootstrap 是一种可行的构建“平行 A 股市场”的重采样方法,能够模拟机器学习不同环节的随机性,从而检验在真实 A 股市场中得出的研究结论是否为过拟合。我们分别对样本内数据、样本外数据和回测时间进行Bootstrap 重采样,发现在“平行 A 股市场”中分组时序交叉验证方法的模型性能和单因子回测指标均优于其它两种方法,统计检验结果显著。真实世界的研究结论能够在平行世界中复现,表明该结论为过拟合的可能性较低。我们借助“偶然”的工具,探寻出“必然”的规律。
Bootstrap 重采样的核心思想是有放回地抽样
Bootstrap 是一种统计学上的重采样方法,又称自举法,主要用于研究统计量的统计特性。该方法的核心思想是有放回地抽样。对原始数据集进行有放回地抽样,得到 N 组 Bootstrap 数据集。每组 Bootstrap 数据集中,有的样本可能被重复抽到,有的样本没有被抽到。计算每一组 Bootstrap 数据集的统计量,将得到 N 组 Bootstrap 数据集的该统计量的分布,进而得到该统计量的统计量。
Bootstrap 重采样对机器学习量化研究体系的构建具有指导意义
Bootstrap 重采样对机器学习量化研究体系的构建具有指导意义。机器学习量化策略开发和传统量化策略开发的重要区别在于,机器学习研究的复杂度、其所涉及的环节、超参数和参数数量远超传统量化研究,任何环节随机性的引入,对最终整个系统都可能造成类似蝴蝶效应式的影响。本文采用 Bootstrap 模拟不同环节的随机性,系统性地评估随机性对机器学习结果的影响方向和影响程度。
机器学习不同环节随机性对模型表现的影响各异
三种 Bootstrap 方案对同一组交叉验证方法的影响方向和程度有区别。Bootstrap 样本内数据集相当于向训练集因子值添加小幅扰动,可能小幅削弱模型表现;Bootstrap 样本外数据集相当于向测试集因子值添加小幅扰动,可能部分增强或削弱模型表现;Bootstrap 回测时间即改变模型的回测时间段,可能大幅增强或削弱模型表现。上述结果对研究者的启示是在开发过程中需要密切关注训练数据的质量,同时应避免因回测时间选择不当而造成的误判。
Bootstrap 提供刻画随机性的思路,使研究者能基于指标分布进行决策
在以往的量化模型开发过程中,通常将历史回测表现视作确定性的结果,而忽略随机性对结果的影响。在面临不同量化策略的取舍之时,往往只是简单基于策略的年化收益率、夏普比率、收益回撤比等评价指标。Bootstrap重采样方法提供了一种刻画随机性的思路,使研究者能够基于评价指标的统计分布而非单个统计量,对模型优劣做出相对客观的判断和决策。本文从方法论的角度,对结合机器学习的多因子选股框架进行反思,针对模型比较和模型评价环节提出创新式的改造,希望对本领域的投资者有所启发。
风险提示:人工智能选股方法是对历史投资规律的挖掘,若未来市场投资环境发生变化,该方法存在失效的可能。机器学习选股模型随机性的来源多样,本研究只考虑有限的三种情况,存在忽略其它更重要随机性来源的可能。Bootstrap 重采样方法是对随机性的简单模拟,存在过度简化的可能。