欢迎访问悟空智库——专业行业公司研究报告文档大数据平台!

华泰证券-华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合-190422

研报附件
华泰证券-华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合-190422.pdf
大小:2553K
立即下载 在线阅读

华泰证券-华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合-190422

华泰证券-华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合-190422
文本预览:

《华泰证券-华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合-190422(28页).pdf》由会员分享,可在线阅读,更多相关《华泰证券-华泰人工智能系列之十九:偶然中的必然,重采样技术检验过拟合-190422(28页).pdf(28页精品完整版)》请在悟空智库报告文库上搜索。

        Bootstrap  是一种可行的构建“平行  A  股市场”的重采样方法
        Bootstrap  是一种可行的构建“平行  A  股市场”的重采样方法,能够模拟机器学习不同环节的随机性,从而检验在真实  A  股市场中得出的研究结论是否为过拟合。我们分别对样本内数据、样本外数据和回测时间进行Bootstrap  重采样,发现在“平行  A  股市场”中分组时序交叉验证方法的模型性能和单因子回测指标均优于其它两种方法,统计检验结果显著。真实世界的研究结论能够在平行世界中复现,表明该结论为过拟合的可能性较低。我们借助“偶然”的工具,探寻出“必然”的规律。
        Bootstrap  重采样的核心思想是有放回地抽样
        Bootstrap  是一种统计学上的重采样方法,又称自举法,主要用于研究统计量的统计特性。该方法的核心思想是有放回地抽样。对原始数据集进行有放回地抽样,得到  N  组  Bootstrap  数据集。每组  Bootstrap  数据集中,有的样本可能被重复抽到,有的样本没有被抽到。计算每一组  Bootstrap  数据集的统计量,将得到  N  组  Bootstrap  数据集的该统计量的分布,进而得到该统计量的统计量。
        Bootstrap  重采样对机器学习量化研究体系的构建具有指导意义
        Bootstrap  重采样对机器学习量化研究体系的构建具有指导意义。机器学习量化策略开发和传统量化策略开发的重要区别在于,机器学习研究的复杂度、其所涉及的环节、超参数和参数数量远超传统量化研究,任何环节随机性的引入,对最终整个系统都可能造成类似蝴蝶效应式的影响。本文采用  Bootstrap  模拟不同环节的随机性,系统性地评估随机性对机器学习结果的影响方向和影响程度。
        机器学习不同环节随机性对模型表现的影响各异
        三种  Bootstrap  方案对同一组交叉验证方法的影响方向和程度有区别。Bootstrap  样本内数据集相当于向训练集因子值添加小幅扰动,可能小幅削弱模型表现;Bootstrap  样本外数据集相当于向测试集因子值添加小幅扰动,可能部分增强或削弱模型表现;Bootstrap  回测时间即改变模型的回测时间段,可能大幅增强或削弱模型表现。上述结果对研究者的启示是在开发过程中需要密切关注训练数据的质量,同时应避免因回测时间选择不当而造成的误判。
        Bootstrap  提供刻画随机性的思路,使研究者能基于指标分布进行决策
        在以往的量化模型开发过程中,通常将历史回测表现视作确定性的结果,而忽略随机性对结果的影响。在面临不同量化策略的取舍之时,往往只是简单基于策略的年化收益率、夏普比率、收益回撤比等评价指标。Bootstrap重采样方法提供了一种刻画随机性的思路,使研究者能够基于评价指标的统计分布而非单个统计量,对模型优劣做出相对客观的判断和决策。本文从方法论的角度,对结合机器学习的多因子选股框架进行反思,针对模型比较和模型评价环节提出创新式的改造,希望对本领域的投资者有所启发。
        风险提示:人工智能选股方法是对历史投资规律的挖掘,若未来市场投资环境发生变化,该方法存在失效的可能。机器学习选股模型随机性的来源多样,本研究只考虑有限的三种情况,存在忽略其它更重要随机性来源的可能。Bootstrap  重采样方法是对随机性的简单模拟,存在过度简化的可能。

展开>> 收起<<

#免责声明#

本站页面所示及下载的一切研究报告、文档和内容信息皆为本站用户上传分享,仅限用于个人学习、收藏和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。如若内容侵犯了您的权利,请参见底部免责申明联系我们及时删除处理。