【国君金工-学界纵横系列】基于随机贴现模型的因子筛选法
(以下内容从国泰君安《【国君金工-学界纵横系列】基于随机贴现模型的因子筛选法》研报附件原文摘录)
陈奥林 从业证书编号 S0880516100001 杨 能 从业证书编号 S0880519080008 引言 近年来,Hou et al. (2019a)的q-factor模型对FF五因子模型的抨击,引发了学术界关于资产定价模型的因子大战,同时AI在因子挖掘上的应用使得因子数量呈指数上升。在这个因子泛滥的时代,factor zoo逐渐演变成factor ocean,判断新因子是否在已有因子的基础上提供新息,需要建立更系统的评价体系。 Barillas和Shanken(2018)以及Fama和French(2018)通过检验资产定价模型中加入新因子前后的alpha变化来衡量新因子的贡献。而面对高维因子库,目前已有LASSO、PCA等方法对原有因子库进行降维,但这些方法可能出现变量遗漏问题,同时没有适当的计量方法解决模型选择错误的问题。这意味着,简单的使用LASSO之类的模型来进行因子筛选并不可靠。 本篇报告推荐的《Taming the factor zoo》提供了一种在高维环境下缓解变量遗漏问题的新因子检验方法。 借鉴文章的方法,我们对技术因子进行逐步回归筛选有效因子,希望将文章方法从资产定价模型拓展到机器学习背景下的因子挖掘。 核心结论 文章(Taming the factor zoo)提出双重选择方法缩减因子库,并通过实证检验近年来文献提出的新因子。 文章得出的主要结论:第一,近年新提出的因子中,BETA、投资能力(HXZ的IA)和盈利能力因子(Fama-French的RMW、HXZ的ROE)有显著贡献。同时对比不同基准模型,双重选择方法可以充分利用因子库中包含的信息,减小变量遗漏误差,进而更保守地评估新因子贡献。第二,随着时间递归地应用文章方法,可以对因子库进行缩减。第三,文章方法对于模型参数具有稳健性,其他机器学习的变量选择方法也与文章的实证结果相似。 本文将文章的方法应用于纯技术因子的评估,发现双重选择方法虽能在一定程度精简因子库,剔除部分相关性较高的因子,但效果不显著。由于文章方法基于随机贴现模型,其在纯技术因子库上的应用有待进一步研究。 目录 1. 核心模型 1.1. 基础模型 1.1.1. 随机贴现因子模型(SDF) 1.1.2. 遗漏变量偏差 1.2. 双重选择方法 1.2.1. 计算步骤 1.2.2. 对比其他模型 2. 原文实证分析 2.1. 数据 2.2. 新因子评估 2.3. 递归测试 2.3.1. 逐年递归评估因子 2.3.2. 逐步回归 2.4. 稳健性检验 2.4.1. 参数稳健性检验 2.4.2. 不同模型的稳健性检验 3. 原文结论 4. 我们的实证与思考 4.1. 技术因子实证分析 4.2. 我们的思考 01 核心模型 1.1. 基础模型 1.1.1. 随机贴现因子模型(SDF) 《Taming the factor zoo》一文是基于随机贴现模型提出的,随机贴现因子的载荷可以作为因子贡献的评价指标。随机贴现因子模型的推导如下, 1.1.2. 遗漏变量偏差 《Taming the factor zoo》提出的方法主要是为了解决遗漏变量带来的偏差问题。遗漏变量指的是模型中遗漏了重要的因子,该问题将导致因子的载荷估计存在偏差,且更严重的是偏差的方向可正可负。 从传统计量经济学的角度来说,遗漏变量问题可以通过加入更多的解释变量来解决。但是在多因子模型中塞入太多的因子容易造成样本内的过拟合。 1.2. 双重选择方法 《Taming the factor zoo》提出的双重选择方法,结合了两阶段横截面回归和双重LASSO(Belloni et al. (2014b))。该方法应用于评价新因子是否在原有的资产定价模型中提供边际贡献,使用双重选择目的是精简原有的定价模型,减小模型选择的偏差。 2.2.1 计算步骤 双重选择方法具体计算步骤如下: 1.2.2. 对比其他模型 《Taming the factor zoo》的双重选择方法,采用LASSO模型,是因为其是线性的,有更好的解释能力。文章提出LASSO也可以用其他模型替代,例如决策树、随机森林、boosting和神经网络(Chernozhukov (2018))等机器学习方法,或子集选择、偏最小二乘法、PCA等变量选择方法。 双重选择方法可以与其他方法进行对比。Harvey 和 Liu(2016)采用逐步回归方法,评估每个因子的边际贡献,进而构建最佳模型。但如果预选模型有多余因子,则可能无法找到最优模型。由于双重选择方法考虑了模型选择错误,文章认为是更优的选择。后续文章会对不同模型进行稳健性检验。 02 原文实证分析 2.1. 数据 《Taming the factor zoo》一文搜集1976年7月至2017年12月来源自不同数据库的因子数据。通过top30%-bottom30%多空市值加权投资组合构造了150个因子收益率(详见附录)。 由于投资组合和单个资产的选择之间存在偏差,文章关注投资组合,而非单个资产为标的。投资组合一般会有更高的beta和信噪比,而且没有数据遗漏的问题。同时Harvey和Liu(2016)指出,投资组合数据过少可能会产生偏差。Litzenberger和Ramaswamy认为,投资组合数量太少会降低效率。 文章使用750个投资组合作为测试资产。测试资产按规模和其他因子进行3×2组合(将股票按大、中、小盘和其他因子的top50%和bottom50%分成6组)。需要注意的是每个3×2投资组合中的股票数量可以不一致,文章只囊括了6组中的股票数量都大于10的因子,满足条件的总共有125个因子,因此产生了750个投资组合(125×3×2)。 2.2. 新因子评估 《Taming the factor zoo》将2012年以前提出的135个因子作为因子库,评估2012年至2016年提出的15个新因子的贡献。 图1为第一重LASSO回归各因子的入选概率。在200次模拟中,只有SMB被选择的概率超过70%,多数因子在1%-20%之间波动。这也说明仅使用一次LASSO回归并不能完美的选择正确的模型。 文章在第一重LASSO中,从因子库中筛选了四个因子:SMB(21),净外部财务(99),流通股变化(109)和利润率(117),可以看出所选因子和常用的基准模型十分接近。在第二重LASSO回归中,平均所选因子个数在20-80个之间。 两次LASSO所选因子数量的差异主要由于选择的目标不同。第一重LASSO主要是为了寻找能够解释横截面预期收益率的因子,因此惩罚系数τ0较高,尽可能构建一个简单的模型。而第二重LASSO主要目的是为了尽可能保留会使估计值产生偏差的因子,甚至可能是冗余因子。第二重LASSO平均所选因子个数是符合预期的,因为很多因子之间存在相关性。仅将第一步LASSO回归的结果作为基础模型,可能会存在较大的遗漏变量偏差。 图2是不同基准模型下新因子SDF载荷的统计结果。第一列使用的是文章提出的双重选择方法(DS),第二列只使用第一重LASSO回归筛选得到的因子作为基准模型。第三列是将Fama-French三因子作为基准模型。第四列将所有因子作为基准模型。第五列是因子的平均风险溢价。 双重选择方法的结果显示,最近五年提出的因子大多是冗余或者无效的。其中有少部分因子有重要贡献:1)盈利能力因子(RMW、ROE):2)投资能力因子IA;3)He的不可交易中间资本因子;4)质量因子(QMJ)。 该结果与FF三因子模型和因子风险溢价(第三、五列)结果相似,但双重选择方法下显著的因子数量更少,证明双重选择方法对新因子的评估更为保守。而第二列和第四列的结果表明,只使用一重LASSO和使用所有因子,都对新因子的评估造成较大偏差。 总体上看,图2的结果可以说明选择基础模型的方法对SDF载荷和因子有效性评价有着至关重要的作用。文章提出的双重选择方法可以帮助研究人员充分利用因子库中包含的信息,而不引入偏差,更保守地评估新因子的边际贡献。 2.3. 递归测试 2.3.1. 逐年递归评估因子 《Taming the factor zoo》一文从1994年开始的每一年,使用双重选择方法检验给定年度引入的新因子贡献。需要注意的是,此实证是递归的,即在评估时间t引入的因子时,仅使用t年度之前的信息 图3为测试结果,加下划线的即为贡献显著的因子。可以看出如果从1994年开始每年进行双重选择,只有17个因子被认为是有用的,其中绝大多数被认为是多冗余或无效因子。 2.3.2. 逐步回归 本节文章提供一种新的递归方法。首先设置ht的初始模型(Fama-French四因子),然后对其他所有因子进行评估,并选择t统计量最高的因子gt,并在未来迭代中需要加入此因子。文章希望在每次迭代时能够正好加入一个因子,同时当没有更多因子被认为对现有集合有贡献时,此递归结束。 在文章的实证中,最后一次迭代中的基准因子为: 逐步回归所选出的因子与上一节所选出的因子大约有一半是相同的。这表明有几个因子(例如,BETA,HXZ投资和盈利能力)不仅对先前引入的因子做出了重要贡献,而且对其他所有因子也都做出了重要贡献。总体而言,这两种做法都对高维因子库进行了筛选,选择出对超额收益较有解释力度的因子。 2.4. 稳健性检验 2.4.1. 参数稳健性检验 本节《Taming the factor zoo》一文探讨了双重选择方法对参数变化的稳健性。双重LASSO需要选择两个在合理范围内的参数。文章选择200个随机种子进行交叉验证,然后检验每个的t统计量随参数的不同而变化的情况。 图表4展示了稳健性分析的结果,其中每一个面板代表一个因子,不同颜色代表被检验因子的t统计量。横轴是第一重LASSO的参数,纵轴是第二重LASSO的参数,红叉表示200个调整参数的平均值。 该图用以证明双重选择方法的稳健性。BETA、投资能力和盈利能力因子十分稳健,而机构投资、CMA、营销费用增长等因子并不稳健。 2.4.2. 不同模型的稳健性检验 本节文章对不同资产组合和不同模型进行稳健性测试。 图6展示了稳健性测试结果,第一列为文章最初模型的统计结果,第二列将测试数据转为5×5的资产组合,第三列使用Giglio和Xiu(2016)的202个投资组合,可以看出文章结果对不同资产具有稳健性。 其余三列为不同机器学习方法的结果。第四列为LASSO与Ridge相结合的Elastic Net。第五列使用Kozak,Nagel和Santosh(2020)提出的方法,先构建因子的PCA,然后在主要成分上使用LASSO。第六列使用Harvey和Liu(2016)建议的正向逐步回归方法,将因子加入的模型中,直到没有因子能够对模型BIC指标进行提升。以上三种方法与文章提出的双重选择结果相似,说明文章方法具有稳健性。 总体而言,尽管某些因子的有效性在稳健性测试中有所不同,但主要结论相当稳健。因此,相对于2012年之前文献中引入的所有因子,可以认为最近引入的一些因子(如QWJ、RMW、ROE、IA等)具有显著贡献。 03 原文结论 《Taming the factor zoo》一文提出了一种基于随机贴现模型检验新因子贡献的方法,此方法在结合传统两阶段回归和Belloni,Chernozhukov和Hansen(2014b)提出的双重选择方法,同时因子库可以是高维度的,也可以包含多个无用或冗余因子。文章主要解决了模型选择中的遗漏变量偏差问题。 将方法应用于近30年文献中提出的大量因子,发现的主要结论:第一,近年新提出的因子(尤其是投资能力、盈利能力)可以对资产定价有显著贡献。第二,实证发现,随着时间递归地应用文章方法,可以对因子库进行缩减。第三,文章方法对于模型参数具有稳健性,同时使用其他机器学习的变量选择方法,也与文章的实证结果相似,说明双重选择方法可以克服模型选择错误而能够产生正确的推论。 总体而言,文章的结果为资产定价研究的持续发展作出贡献,同时需要指出的是文章研究新因子相对于大量现有因子的边际贡献是一种保守且有效的筛选新因子的方法,这也为处理海量因子库给出了一条途径。 04 我们的实证与思考 4.1. 技术因子实证分析 本节我们将《Taming the factor zoo》提出的双重选择方法用于对技术因子的贡献评估。我们参考文章的逐步回归方法,对66个技术因子(见附录)进行逐步回归,每次在双重选择后的横截面回归中,选择t统计量最高的因子加入基准模型,当没有更多因子被认为对现有因子集合有贡献时(t统计量不显著),此递归结束。 原技术因子集包含较多相关性较大的因子,希望能通过文章方法精简因子库,删除相关性较大的因子,选择边际贡献较大的因子。 表2显示的是按次序选择的因子集。对比选择前后因子的最高相关性,选择的绝大多数因子最大相关性减小,但也将相关性较大的因子入选,例如vpin和volume_vr类因子。同时表3计算选择前后因子库的绝对相关性均值,发现双重选择方法并没有显著降低因子间的相关性。 表4为只使用一次LASSO回归的选择模型,作为与双重选择模型的对比。模型中Alpha取0.0002使得系数不为0的因子数量与双重选择模型相近。发现两个模型半数因子重叠,证明双重选择模型具有一定稳健性。 实证结果显示,在纯技术因子库的应用上,双重选择方法虽能在一定程度精简因子库,剔除部分相关性较高的因子,但效果不显著。 双重选择方法是基于资产定价模型提出的,资产定价模型中的因子具有经济学意义,且因子对收益的解释力度较大,因此应用双重选择方法可在精简因子库的基础上检验新因子。而在技术因子库中没有对收益解释力度较强的核心因子,且通过修改参数构成的同类因子相关性较大,使用双重选择方法对因子精简的效果不明显。 3.2. 我们的思考 随着因子投资的兴起,新因子的挖掘成为学术界和业界的重点研究方向之一。然而目前对于新因子的贡献多使用相关系数检验,可能无法很好的度量高维基准模型下新因子的边际贡献。文章(Taming the factor zoo)的方法对因子库的构建有着重要指导意义,可以帮助投资者更好把握新因子的作用。同时通过对技术因子的实证分析发现,文章的方法虽能在一定程度精简因子库,剔除部分相关性较高的因子,但效果不显著。由于双重选择方法是基于随机贴现模型提出的,其在纯技术因子库上的应用有待进一步研究。 详细报告请查看20210721发布的国泰君安金融工程专题报告《基于随机贴现模型的因子筛选法之十六》 法律声明: 本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。根据《证券期货投资者适当性管理办法》,本订阅号所载内容仅面向国泰君安证券客户中的专业投资者。因本资料暂时无法设置访问限制,若您并非国泰君安证券客户中的专业投资者,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。订阅人对本订阅号发布的所有内容(包括文字、影像等)进行复制、转载的,需明确注明出处,且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。
陈奥林 从业证书编号 S0880516100001 杨 能 从业证书编号 S0880519080008 引言 近年来,Hou et al. (2019a)的q-factor模型对FF五因子模型的抨击,引发了学术界关于资产定价模型的因子大战,同时AI在因子挖掘上的应用使得因子数量呈指数上升。在这个因子泛滥的时代,factor zoo逐渐演变成factor ocean,判断新因子是否在已有因子的基础上提供新息,需要建立更系统的评价体系。 Barillas和Shanken(2018)以及Fama和French(2018)通过检验资产定价模型中加入新因子前后的alpha变化来衡量新因子的贡献。而面对高维因子库,目前已有LASSO、PCA等方法对原有因子库进行降维,但这些方法可能出现变量遗漏问题,同时没有适当的计量方法解决模型选择错误的问题。这意味着,简单的使用LASSO之类的模型来进行因子筛选并不可靠。 本篇报告推荐的《Taming the factor zoo》提供了一种在高维环境下缓解变量遗漏问题的新因子检验方法。 借鉴文章的方法,我们对技术因子进行逐步回归筛选有效因子,希望将文章方法从资产定价模型拓展到机器学习背景下的因子挖掘。 核心结论 文章(Taming the factor zoo)提出双重选择方法缩减因子库,并通过实证检验近年来文献提出的新因子。 文章得出的主要结论:第一,近年新提出的因子中,BETA、投资能力(HXZ的IA)和盈利能力因子(Fama-French的RMW、HXZ的ROE)有显著贡献。同时对比不同基准模型,双重选择方法可以充分利用因子库中包含的信息,减小变量遗漏误差,进而更保守地评估新因子贡献。第二,随着时间递归地应用文章方法,可以对因子库进行缩减。第三,文章方法对于模型参数具有稳健性,其他机器学习的变量选择方法也与文章的实证结果相似。 本文将文章的方法应用于纯技术因子的评估,发现双重选择方法虽能在一定程度精简因子库,剔除部分相关性较高的因子,但效果不显著。由于文章方法基于随机贴现模型,其在纯技术因子库上的应用有待进一步研究。 目录 1. 核心模型 1.1. 基础模型 1.1.1. 随机贴现因子模型(SDF) 1.1.2. 遗漏变量偏差 1.2. 双重选择方法 1.2.1. 计算步骤 1.2.2. 对比其他模型 2. 原文实证分析 2.1. 数据 2.2. 新因子评估 2.3. 递归测试 2.3.1. 逐年递归评估因子 2.3.2. 逐步回归 2.4. 稳健性检验 2.4.1. 参数稳健性检验 2.4.2. 不同模型的稳健性检验 3. 原文结论 4. 我们的实证与思考 4.1. 技术因子实证分析 4.2. 我们的思考 01 核心模型 1.1. 基础模型 1.1.1. 随机贴现因子模型(SDF) 《Taming the factor zoo》一文是基于随机贴现模型提出的,随机贴现因子的载荷可以作为因子贡献的评价指标。随机贴现因子模型的推导如下, 1.1.2. 遗漏变量偏差 《Taming the factor zoo》提出的方法主要是为了解决遗漏变量带来的偏差问题。遗漏变量指的是模型中遗漏了重要的因子,该问题将导致因子的载荷估计存在偏差,且更严重的是偏差的方向可正可负。 从传统计量经济学的角度来说,遗漏变量问题可以通过加入更多的解释变量来解决。但是在多因子模型中塞入太多的因子容易造成样本内的过拟合。 1.2. 双重选择方法 《Taming the factor zoo》提出的双重选择方法,结合了两阶段横截面回归和双重LASSO(Belloni et al. (2014b))。该方法应用于评价新因子是否在原有的资产定价模型中提供边际贡献,使用双重选择目的是精简原有的定价模型,减小模型选择的偏差。 2.2.1 计算步骤 双重选择方法具体计算步骤如下: 1.2.2. 对比其他模型 《Taming the factor zoo》的双重选择方法,采用LASSO模型,是因为其是线性的,有更好的解释能力。文章提出LASSO也可以用其他模型替代,例如决策树、随机森林、boosting和神经网络(Chernozhukov (2018))等机器学习方法,或子集选择、偏最小二乘法、PCA等变量选择方法。 双重选择方法可以与其他方法进行对比。Harvey 和 Liu(2016)采用逐步回归方法,评估每个因子的边际贡献,进而构建最佳模型。但如果预选模型有多余因子,则可能无法找到最优模型。由于双重选择方法考虑了模型选择错误,文章认为是更优的选择。后续文章会对不同模型进行稳健性检验。 02 原文实证分析 2.1. 数据 《Taming the factor zoo》一文搜集1976年7月至2017年12月来源自不同数据库的因子数据。通过top30%-bottom30%多空市值加权投资组合构造了150个因子收益率(详见附录)。 由于投资组合和单个资产的选择之间存在偏差,文章关注投资组合,而非单个资产为标的。投资组合一般会有更高的beta和信噪比,而且没有数据遗漏的问题。同时Harvey和Liu(2016)指出,投资组合数据过少可能会产生偏差。Litzenberger和Ramaswamy认为,投资组合数量太少会降低效率。 文章使用750个投资组合作为测试资产。测试资产按规模和其他因子进行3×2组合(将股票按大、中、小盘和其他因子的top50%和bottom50%分成6组)。需要注意的是每个3×2投资组合中的股票数量可以不一致,文章只囊括了6组中的股票数量都大于10的因子,满足条件的总共有125个因子,因此产生了750个投资组合(125×3×2)。 2.2. 新因子评估 《Taming the factor zoo》将2012年以前提出的135个因子作为因子库,评估2012年至2016年提出的15个新因子的贡献。 图1为第一重LASSO回归各因子的入选概率。在200次模拟中,只有SMB被选择的概率超过70%,多数因子在1%-20%之间波动。这也说明仅使用一次LASSO回归并不能完美的选择正确的模型。 文章在第一重LASSO中,从因子库中筛选了四个因子:SMB(21),净外部财务(99),流通股变化(109)和利润率(117),可以看出所选因子和常用的基准模型十分接近。在第二重LASSO回归中,平均所选因子个数在20-80个之间。 两次LASSO所选因子数量的差异主要由于选择的目标不同。第一重LASSO主要是为了寻找能够解释横截面预期收益率的因子,因此惩罚系数τ0较高,尽可能构建一个简单的模型。而第二重LASSO主要目的是为了尽可能保留会使估计值产生偏差的因子,甚至可能是冗余因子。第二重LASSO平均所选因子个数是符合预期的,因为很多因子之间存在相关性。仅将第一步LASSO回归的结果作为基础模型,可能会存在较大的遗漏变量偏差。 图2是不同基准模型下新因子SDF载荷的统计结果。第一列使用的是文章提出的双重选择方法(DS),第二列只使用第一重LASSO回归筛选得到的因子作为基准模型。第三列是将Fama-French三因子作为基准模型。第四列将所有因子作为基准模型。第五列是因子的平均风险溢价。 双重选择方法的结果显示,最近五年提出的因子大多是冗余或者无效的。其中有少部分因子有重要贡献:1)盈利能力因子(RMW、ROE):2)投资能力因子IA;3)He的不可交易中间资本因子;4)质量因子(QMJ)。 该结果与FF三因子模型和因子风险溢价(第三、五列)结果相似,但双重选择方法下显著的因子数量更少,证明双重选择方法对新因子的评估更为保守。而第二列和第四列的结果表明,只使用一重LASSO和使用所有因子,都对新因子的评估造成较大偏差。 总体上看,图2的结果可以说明选择基础模型的方法对SDF载荷和因子有效性评价有着至关重要的作用。文章提出的双重选择方法可以帮助研究人员充分利用因子库中包含的信息,而不引入偏差,更保守地评估新因子的边际贡献。 2.3. 递归测试 2.3.1. 逐年递归评估因子 《Taming the factor zoo》一文从1994年开始的每一年,使用双重选择方法检验给定年度引入的新因子贡献。需要注意的是,此实证是递归的,即在评估时间t引入的因子时,仅使用t年度之前的信息 图3为测试结果,加下划线的即为贡献显著的因子。可以看出如果从1994年开始每年进行双重选择,只有17个因子被认为是有用的,其中绝大多数被认为是多冗余或无效因子。 2.3.2. 逐步回归 本节文章提供一种新的递归方法。首先设置ht的初始模型(Fama-French四因子),然后对其他所有因子进行评估,并选择t统计量最高的因子gt,并在未来迭代中需要加入此因子。文章希望在每次迭代时能够正好加入一个因子,同时当没有更多因子被认为对现有集合有贡献时,此递归结束。 在文章的实证中,最后一次迭代中的基准因子为: 逐步回归所选出的因子与上一节所选出的因子大约有一半是相同的。这表明有几个因子(例如,BETA,HXZ投资和盈利能力)不仅对先前引入的因子做出了重要贡献,而且对其他所有因子也都做出了重要贡献。总体而言,这两种做法都对高维因子库进行了筛选,选择出对超额收益较有解释力度的因子。 2.4. 稳健性检验 2.4.1. 参数稳健性检验 本节《Taming the factor zoo》一文探讨了双重选择方法对参数变化的稳健性。双重LASSO需要选择两个在合理范围内的参数。文章选择200个随机种子进行交叉验证,然后检验每个的t统计量随参数的不同而变化的情况。 图表4展示了稳健性分析的结果,其中每一个面板代表一个因子,不同颜色代表被检验因子的t统计量。横轴是第一重LASSO的参数,纵轴是第二重LASSO的参数,红叉表示200个调整参数的平均值。 该图用以证明双重选择方法的稳健性。BETA、投资能力和盈利能力因子十分稳健,而机构投资、CMA、营销费用增长等因子并不稳健。 2.4.2. 不同模型的稳健性检验 本节文章对不同资产组合和不同模型进行稳健性测试。 图6展示了稳健性测试结果,第一列为文章最初模型的统计结果,第二列将测试数据转为5×5的资产组合,第三列使用Giglio和Xiu(2016)的202个投资组合,可以看出文章结果对不同资产具有稳健性。 其余三列为不同机器学习方法的结果。第四列为LASSO与Ridge相结合的Elastic Net。第五列使用Kozak,Nagel和Santosh(2020)提出的方法,先构建因子的PCA,然后在主要成分上使用LASSO。第六列使用Harvey和Liu(2016)建议的正向逐步回归方法,将因子加入的模型中,直到没有因子能够对模型BIC指标进行提升。以上三种方法与文章提出的双重选择结果相似,说明文章方法具有稳健性。 总体而言,尽管某些因子的有效性在稳健性测试中有所不同,但主要结论相当稳健。因此,相对于2012年之前文献中引入的所有因子,可以认为最近引入的一些因子(如QWJ、RMW、ROE、IA等)具有显著贡献。 03 原文结论 《Taming the factor zoo》一文提出了一种基于随机贴现模型检验新因子贡献的方法,此方法在结合传统两阶段回归和Belloni,Chernozhukov和Hansen(2014b)提出的双重选择方法,同时因子库可以是高维度的,也可以包含多个无用或冗余因子。文章主要解决了模型选择中的遗漏变量偏差问题。 将方法应用于近30年文献中提出的大量因子,发现的主要结论:第一,近年新提出的因子(尤其是投资能力、盈利能力)可以对资产定价有显著贡献。第二,实证发现,随着时间递归地应用文章方法,可以对因子库进行缩减。第三,文章方法对于模型参数具有稳健性,同时使用其他机器学习的变量选择方法,也与文章的实证结果相似,说明双重选择方法可以克服模型选择错误而能够产生正确的推论。 总体而言,文章的结果为资产定价研究的持续发展作出贡献,同时需要指出的是文章研究新因子相对于大量现有因子的边际贡献是一种保守且有效的筛选新因子的方法,这也为处理海量因子库给出了一条途径。 04 我们的实证与思考 4.1. 技术因子实证分析 本节我们将《Taming the factor zoo》提出的双重选择方法用于对技术因子的贡献评估。我们参考文章的逐步回归方法,对66个技术因子(见附录)进行逐步回归,每次在双重选择后的横截面回归中,选择t统计量最高的因子加入基准模型,当没有更多因子被认为对现有因子集合有贡献时(t统计量不显著),此递归结束。 原技术因子集包含较多相关性较大的因子,希望能通过文章方法精简因子库,删除相关性较大的因子,选择边际贡献较大的因子。 表2显示的是按次序选择的因子集。对比选择前后因子的最高相关性,选择的绝大多数因子最大相关性减小,但也将相关性较大的因子入选,例如vpin和volume_vr类因子。同时表3计算选择前后因子库的绝对相关性均值,发现双重选择方法并没有显著降低因子间的相关性。 表4为只使用一次LASSO回归的选择模型,作为与双重选择模型的对比。模型中Alpha取0.0002使得系数不为0的因子数量与双重选择模型相近。发现两个模型半数因子重叠,证明双重选择模型具有一定稳健性。 实证结果显示,在纯技术因子库的应用上,双重选择方法虽能在一定程度精简因子库,剔除部分相关性较高的因子,但效果不显著。 双重选择方法是基于资产定价模型提出的,资产定价模型中的因子具有经济学意义,且因子对收益的解释力度较大,因此应用双重选择方法可在精简因子库的基础上检验新因子。而在技术因子库中没有对收益解释力度较强的核心因子,且通过修改参数构成的同类因子相关性较大,使用双重选择方法对因子精简的效果不明显。 3.2. 我们的思考 随着因子投资的兴起,新因子的挖掘成为学术界和业界的重点研究方向之一。然而目前对于新因子的贡献多使用相关系数检验,可能无法很好的度量高维基准模型下新因子的边际贡献。文章(Taming the factor zoo)的方法对因子库的构建有着重要指导意义,可以帮助投资者更好把握新因子的作用。同时通过对技术因子的实证分析发现,文章的方法虽能在一定程度精简因子库,剔除部分相关性较高的因子,但效果不显著。由于双重选择方法是基于随机贴现模型提出的,其在纯技术因子库上的应用有待进一步研究。 详细报告请查看20210721发布的国泰君安金融工程专题报告《基于随机贴现模型的因子筛选法之十六》 法律声明: 本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。根据《证券期货投资者适当性管理办法》,本订阅号所载内容仅面向国泰君安证券客户中的专业投资者。因本资料暂时无法设置访问限制,若您并非国泰君安证券客户中的专业投资者,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。订阅人对本订阅号发布的所有内容(包括文字、影像等)进行复制、转载的,需明确注明出处,且不得对本订阅号所载内容进行任何有悖原意的引用、删节和修改。
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。