欢迎访问悟空智库——专业行业公司研究报告文档大数据平台!

中信证券-机器学习系列:数据治理专题,立足数据标准化框架,挖掘基本面量化通用指标-221022

上传日期:2022-10-22 15:16:55 / 研报作者:张若海伍家豪 / 分享者:1008888
研报附件
中信证券-机器学习系列:数据治理专题,立足数据标准化框架,挖掘基本面量化通用指标-221022.pdf
大小:2401K
立即下载 在线阅读

中信证券-机器学习系列:数据治理专题,立足数据标准化框架,挖掘基本面量化通用指标-221022

中信证券-机器学习系列:数据治理专题,立足数据标准化框架,挖掘基本面量化通用指标-221022
文本预览:

《中信证券-机器学习系列:数据治理专题,立足数据标准化框架,挖掘基本面量化通用指标-221022(24页).pdf》由会员分享,可在线阅读,更多相关《中信证券-机器学习系列:数据治理专题,立足数据标准化框架,挖掘基本面量化通用指标-221022(24页).pdf(24页精品完整版)》请在悟空智库报告文库上搜索。

  从基本面量化的发展历史看,策略创新发展持续围绕着量化模型升级和金融数据挖掘。多模态数据蕴含大量投研信息,但在基本面量化的建模过程中,非标准化数据的治理难度直接阻碍了大量有效指标的构建和应用。近年来数据的积累叠加机器学习的发展,使得处理海量数据并蒸馏提取有效指标成为可能。本文围绕通用指标的挖掘和使用,提供基本面量化研究数据指标构建的新思路。
  ▍海量信息伴随数据陷阱,大量原始数据难以直接赋能投研。随着大数据技术蓬勃发展,各类型数据的数量开始呈现爆发式增长。根据IDC预测显示,全球数据量将从2020年的64.2ZB增长到2025年的175ZB。海量数据所产生的信息增量将不断翻新投研应用场景,但由于数据与技术匹配低效、缺乏投研专家知识以及数据质量等问题,其中大部分数据难以直接应用于基本面量化策略。
  ▍不同投资应用场景应定义不同数据标准化范式,目标导向牵引底层数据组合应用于投研。随着数据量的爆发式增长,越来越多的数据进入投资领域的应用视野,立足多个类型的数据集群:市场行情数据、财务数据、基本面数据、另类数据、投研流程数据,可以支持行业选股、行业择时、主题或行业轮动等多种投资应用场景。但不同的投资应用可以直接使用的标准化数据在种类、格式、内容、频率、来源等维度均存在较大差异,所以构建数据策略务必具备明确的投资应用场景,以目标导向的模式来牵引底层数据的组合应用与指标的清洗构建。
  ▍以中观行业配置场景为例,借助技术支点构建行业级基本面量化指标。中观行业配置需要综合考虑行业基本面、舆情、政策、资金等多个维度信息,因此我们借助机器学习、自然语言处理等数据处理技术,基于政策文本量化、景气度模型构建与行业资金流动性统计三个维度构建了三类有效指标。以中观行业配置应用作为明确的目标场景,保证了指标构建的专业性与投资应用的有效性。从机器辅助数据处理的角度看,我们基于技术手段实现月频的数据集群更新和指标维护,自动化完成全行业底层400余个指标的更新与清洗,从时间跨度超过10年的海量非结构化文本数据中构建有效指标。
  ▍中观行业配置场景中,技术赋能指标库构建的路径:1.投资指向的数据结构设计:针对行业级月频或季频调仓的场景,制定标准化的指标库结构,形成标准化回测框架,以保证指标的投资有效性;2.代码助力数据清洗流程标准化:指标构建的过程涉及大量基本面指标或文本的处理,因此可以借助代码形成自动化清洗工具,将维护流程标准化,形成不同层级的数据资产;3. NLP助力低信息密度数据的指标构建:政策、新闻、研报等数据包含海量的文本数据,面向不同场景利用NLP技术可以将文本数据指标化,挖掘其中的统计或语义信息。
  ▍数据标准化形成资产,为不同场景引入新数据、新指标、新策略,并具备极高的复用价值。借助自动化工具形成的数据清洗、存储、使用流程,在构建完成后维护成本会大幅降低。在此过程中,针对不同场景形成的原始数据、指标数据、策略方法会以数据库和代码的方式形成标准化、可复用的数据资产。
  ▍风险因素:数字化政策落地不及预期;模型依赖的行业逻辑发生变化。

展开>> 收起<<

#免责声明#

本站页面所示及下载的一切研究报告、文档和内容信息皆为本站用户上传分享,仅限用于个人学习、收藏和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。如若内容侵犯了您的权利,请参见底部免责申明联系我们及时删除处理。