中泰证券-FarmPredict机器学习框架:“财经新闻”挖掘与“股票策略”构建-230206

《中泰证券-FarmPredict机器学习框架:“财经新闻”挖掘与“股票策略”构建-230206(20页).pdf》由会员分享,可在线阅读,更多相关《中泰证券-FarmPredict机器学习框架:“财经新闻”挖掘与“股票策略”构建-230206(20页).pdf(20页精品完整版)》请在悟空智库报告文库上搜索。
◆文本挖掘与机器学习
传统人工智能方法挖掘文本信息从而构建股票组合效果一般,范剑青老师等人提出了一个通用的和自适应的高维数据机器学习框架FarmPredict,该模型可以从文本数据中提取潜在因子和特质因子,用来输入惩罚回归预测股票未来收益。他们在中国股市的实证结果表面,基于FarmPredict可以提取的情绪主导词汇,并且根据情绪评分指标构建的投资组合收益年化高达116%,这个结果显著优于其它模型。这项研究开辟了非结构数据在金融应用中的全新范式,更是证明了大数据技术无论在数据上还是在方法论上都在“金融投资”中有其核心地位。
◆FarmPredict框架
FarmPredict由三个步骤组成。第一步是从高维文章中使用无监督学习获取隐藏的特征。为此,我们使用主成分分析(PCA)将文章转换为包括多个潜在因子和特质因子组成的隐式成分的向量。潜在因子的数量由调整后特征值阈值方法估计(Fan等,2020a)。这是一个纯粹的无监督学习过程,不需要先验假设的干预,所有的信息均从文章本身中学习。我们还解释了在文本数据中使用无监督学习的必要性,因为它可以避免主观假设和限制数据使用的潜在偏差。第二步,我们通过特质因子与学习目标(关联股票的贝塔调整后收益)的基于因子条件相关性做筛选。此步骤是可选的,但有助于我们将维度降低到更易于管理的级别。最后我们使用LASSO模型基于潜在因子和筛选后的特质因子预测资产价格。在每个分析步骤中FarmPredict也提供了高度的灵活性。
◆组合构建与组合绩效
每天收盘集合竞价开始计算模型,算完后,按照当天收盘价买入当前交易日预测值Y new最靠前的50条新闻对应的股票,以当前交易日收盘时的总市值为权重,并持有至下一个交易日收盘时,这个是市值加权组合。等权组合则是预测值Y new最靠前的50支股票的权重均为2%,同样持有至下一个交易日收盘时。下图是不同Y变量下的组合累积收益,可以看出收益率比较高。当然这是理论收益,并没有考虑手续费和交易摩擦成本。