欢迎访问悟空智库——专业行业公司研究报告文档大数据平台!

华泰证券-华泰人工智能系列之二十七:揭开机器学习模型的“黑箱”-200206

研报附件
华泰证券-华泰人工智能系列之二十七:揭开机器学习模型的“黑箱”-200206.pdf
大小:3439K
立即下载 在线阅读

华泰证券-华泰人工智能系列之二十七:揭开机器学习模型的“黑箱”-200206

华泰证券-华泰人工智能系列之二十七:揭开机器学习模型的“黑箱”-200206
文本预览:

《华泰证券-华泰人工智能系列之二十七:揭开机器学习模型的“黑箱”-200206(33页).pdf》由会员分享,可在线阅读,更多相关《华泰证券-华泰人工智能系列之二十七:揭开机器学习模型的“黑箱”-200206(33页).pdf(33页精品完整版)》请在悟空智库报告文库上搜索。

  本文介绍机器学习解释方法原理,以XGBoost选股模型为例揭开黑箱
  本文介绍六种机器学习模型解释方法的原理,并以华泰XGBoost选股模型为例,尝试揭开机器学习模型的“黑箱”。机器学习多属于黑箱模型,而资管行业的伦理需要可解释的白箱模型。除传统的特征重要性外,ICE、PDP、SDT、LIME、SHAP都是解释模型的有力工具。揭开选股模型黑箱,我们发现:1)价量类因子的重要性整体高于基本面类因子;2)XGBoost模型以非线性的逻辑使用因子,因子的非线性特点在市值、反转、技术、情绪因子上体现尤为明显。
  目前人工智能算法的本质仍是样本拟合,直接使用模型结论可能有风险
  目前的人工智能算法,即使是近年来发展迅猛的深度神经网络,和线性回归并无本质上的不同,仍是对样本特征X和标签Y进行拟合,区别无非是机器学习模型的非线性拟合能力更强。人工智能并不具备真正的“智能”。模型只能学习特征和标签的相关关系,但无法挖掘其中的因果关系。如果不将机器学习模型的黑箱打开,不弄清机器学习模型的“思考”过程,直接使用机器学习的判断结果,可能带来较大的风险。
  近年来研究者提出诸多机器学习模型解释方法,核心思想各有不同
  近年来研究者提出诸多机器学习模型解释方法,除了传统的特征重要性外,ICE、PDP、SDT、LIME、SHAP都是揭开机器学习模型黑箱的有力工具。特征重要性计算依据某个特征进行决策树分裂时,分裂前后的信息增益。ICE和PDP考察某项特征的不同取值对模型输出值的影响。SDT用单棵决策树解释其它更复杂的机器学习模型。LIME的核心思想是对于每条样本,寻找一个更容易解释的代理模型解释原模型。SHAP的概念源于博弈论,核心思想是计算特征对模型输出的边际贡献。
  应用多种机器学习模型解释方法,揭开XGBoost选股模型的“黑箱”
  我们应用多种机器学习模型解释方法,对以2013~2018年为训练和验证集、2019年整年为测试集的模型进行分析,尝试揭开XGBoost选股模型的“黑箱”。特征重要性和SDT的结果表明,价量类因子的重要性整体高于基本面类因子。ICE和LIME能够展示模型对个股做出预测的依据。PDP和SHAP的结果表明:1)XGBoost模型以非线性的逻辑使用因子,因子的非线性特点在市值、反转、技术、情绪因子上体现尤为明显;2)部分因子之间存在较强的交互作用;3)部分因子边际贡献为0,未来可以考虑事先剔除。
  SHAP理论完备,表达直观,从全局和个体层面展示特征的边际贡献
  SHAP的优点在于理论完备,表达直观,既能从全局层面评估特征的重要性,又能从个体层面评估每条样本每项特征对模型输出的影响,还能展示特征间的交互作用。SHAP向我们揭示模型如何运用因子,反过来还可以帮助我们加深对因子的理解。几种机器学习模型解释方法各擅胜场,综合来看我们更推荐使用SHAP。
  风险提示:人工智能选股是对历史规律的总结,若未来规律发生变化,模型存在失效的风险。人工智能选股模型存在过拟合的风险。机器学习模型解释方法存在过度简化的风险。
  

展开>> 收起<<

#免责声明#

本站页面所示及下载的一切研究报告、文档和内容信息皆为本站用户上传分享,仅限用于个人学习、收藏和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。如若内容侵犯了您的权利,请参见底部免责申明联系我们及时删除处理。