首页 > 公众号研报 > 【广发金融工程】基于地理关联度因子研究--多因子Alpha系列报告之(四十三)

【广发金融工程】基于地理关联度因子研究--多因子Alpha系列报告之(四十三)

作者:微信公众号【广发金融工程研究】/ 发布时间:2022-09-18 / 悟空智库整理
(以下内容从广发证券《【广发金融工程】基于地理关联度因子研究--多因子Alpha系列报告之(四十三)》研报附件原文摘录)
  摘 要 因子开发迭代更新越来越重要。 近几年来,随着传统多因子模型在市场的应用逐渐广泛,因子的波动特征逐渐加大,因子拥挤等原因造成了因子的收益逐渐下降。为了能够寻找更好的Alpha收益来源,在多因子模型框架中,因子作为底层Alpha来源输入的基础,因子的开发、迭代、更新就显得越来越重要。低频相关的数据的因子开发目前难度越来越大,增量的信息越来越有限。本篇专题探讨个股基于地理关联数据在因子选股中的应用。 领先滞后效应与地理关联度概念。 传统的有效市场假说认为,在完全有效的金融市场上,价格能够及时、充分反映资产的所有公开信息以及私有信息。但实证研究表明,股票市场中存在着“领先滞后效应”。Parsons和Sabbatucci(2018)在发表论文《Geographic Lead-Lag Effects》中提出地理关联股票之间存在这一效应。这两位学者认为,总部位于相同地理区域的个股会受到同一基本面因素影响,但不同公司的股价对于新信息的反应速度存在差异,从而地理关联股票的价格变动对目标股票收益具有显著预测作用。本报告基于地理关联度研究思路,构造了地理相关系数因子及其优化因子,并研究该类因子在A股中的有效性。 地理关联度因子实证分析。 本篇专题报告共构建了六种地理相关系数类因子并在全市场范围了进行月频调仓的实证分析。实证分析结果表明,GEOGCORR、GEOGCORRP与GEOGCORRIP共3种因子的分档效果明显。其中,GEOGCORRP因子整体表现较好。因子整体的IC均值为0.069,正IC占比90%,多头相对中证500指数年化超额收益率为13.98%,信息比率为1.706。 相关性分析与稳健性检验。 本篇专题报告针对回测表现较好的3种地理相关系数类因子,进行与BARRA因子相关性分析与稳健性检验。实证结果表明,地理相关系数类因子能够挖掘传统因子外的增量信息,即股票之间的地理关联信息。GEOGCORR因子、GEOGCORRP因子在中证1000、创业板股票池内仍具有较好表现。由于因子策略多头换手率较高,地理相关系数类因子对手续费敏感。 风险提示。 本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险;策略在市场结构及交易行为的改变时有可能存在策略失效风险。 正 文 一、因子挖掘思考 1.1 高频信息 近年来,A股市场机构化趋势明显,量化私募机构的管理规模也迅速扩大,产生了一批管理规模超过百亿的量化私募机构。与此同时,传统的风格因子波动增大,从市场获取超额收益的难度在增加。 因子拥挤是因子收益下降的原因之一。因子代表着市场某方面的非有效性、或者是一段时期内的定价失效。当某类因子收益高的时候,会吸引更多的资金进入,从而出现因子拥挤,降低因子的预期收益。一旦新的因子被公开,套利资金的介入会使得错误定价收窄,因子收益也会跟着下降。因此,在多因子选股模型中,因子的开发和更新迭代变得越来越重要。 以传统日频价量和更低频财务数据为基础的因子开发是一种研究途径。由于基础因子广为人知,在此基础上进行因子挖掘的收益提升空间相对有限。而且日频数据由于本身的数据量和信息量有限,过度挖掘会增大过拟合的风险。 以高频价量数据为基础的因子开发在当下具有更大的收益提升空间。与低频因子相比,高频数据在用于量化投资中存在一定优势。 首先,高频价量数据的体量明显大于低频数据。以分钟行情为例,用压缩效果较好的mat格式存储2020年全市场股票的分钟行情数据(包括分钟频的开高低收价格数据、买卖盘挂单数据等),约为12GB。如果是快照行情(目前上交所和深交所都是3秒一笔)或者level 2行情,数据量要大很多。因此,高频数据因子挖掘对信息处理能力和处理效率的要求较高。而且,日内数据,尤其是level 2数据,一般要额外付费,甚至需要自行下载存储实时行情,在此基础上构建的因子拥挤度较低。 其次,高频价量数据一般是多维的时间序列数据,数据中噪声比例较高,而且与ROE、PE这类低频指标本身就具有选股能力不同的是,原始的高频行情数据一般不能直接用作选股因子,而要通过信号变换、时间序列分析、机器学习等方法从高频数据中构建特征,才能作为选股因子。此类因子与低频信号的相关性较低,而且由于因子开发流程相对复杂,不同投资者构建的因子更具有多样性。 此外,高频数据开发的因子一般调仓周期较短,意味着在检验因子有效性的时候,同一段测试期具有更多的独立样本。例如,在一年的测试期内,只有12个独立的样本段用于检验月频调仓的因子,与之相比,有约50个独立的时段用于检验周频调仓因子,有超过240个独立的时段用于检验日频调仓的因子。独立样本的增多有助于检验高频因子的有效性。 高频数据挖掘因子的难点在于数据维度大、噪声高。凭借专业投资者的经验或者是参阅已发表的文献,可以从高频数据中提炼出一部分有选股能力的特征。此外,机器学习方法擅长从数据中寻找规律和特征,是高频数据因子挖掘的有力工具。 1.2 低频信息 以传统日频价量和更低频财务数据为基础的因子开发是一种研究途径。由于基础因子广为人知,在此基础上进行因子挖掘的收益提升空间相对有限。而且日频数据由于本身的数据量和信息量有限,过度挖掘会增大过拟合的风险。 对于低频信息的挖掘,从最近几年的进展上看,低频里的增量信息成果越来越少。从数据维度上看,低频的因子建模更多是从一些另类数据或者是新的方法、理论成果中出发构建相关的因子。如另类数据角度,从互联网中的股吧、新闻、关注度等角度,或者是专利数据、供应链相关数据等。新的理论成果如从图网络等角度出发构建相关的因子。 本篇专题报告基于个股的“关联度”角度出发,研究个股所在区域关联度角度构建因子。 二、关联度因子研究进展 传统的有效市场假说认为,在完全有效的金融市场上,价格能够及时、充分反映资产的所有公开信息以及私有信息。但是,Kalok等(2005)[3]、刘菁哲(2010)[12]等众多学者通过实证研究发现,股票市场中存在着“领先滞后效应”,即不同公司对相同基本面信息的反应速度存在差异,一些公司能够迅速对新信息做出反应,另一些公司对于新信息的反应存在时滞。 本报告对国内外学者基于行业关联、科技关联、供应链关联、地理关联信息的“领先滞后效应”研究成果进行了简单梳理。对于行业关联信息,Cohen和Lou(2012)[5]实证检验了,面对影响全行业的信息事件,单一经营部门公司的股价能够更迅速地反映新信息,同时对于多经营部门公司未来股票收益存在显著预测能力。胡聪慧等(2015)[10]采用A股上市公司数据验证了这一结论,并证实了集团公司股价变动的滞后性主要在于投资者关注度与处理能力有限性,以及行业估值的复杂性。向诚等(2018)[13]实证说明了行业内受关注度最高的30%公司组合的收益率,显著引领受关注度最低30%公司组合的未来收益率。段丙蕾等(2022)[9]认为行业关联回报率仅在月度层面显著,在周度层面不显著。同时,Parsons和Sabbatucci(2018)[1]对于行业关联公司的收益预测能力的有效性提出质疑。他们认为,随着证券分析师覆盖率不断提升,股票价格的有效性增强;随着个股证券分析师重复率上升,股票价格反映的行业一致预期信息越多,因此基于行业关联构建的股票投资策略效果可能衰减。 对于科技关联信息,Lee等(2019)[6]构建科技关联指标并进行实证分析,研究结论表明科技关联企业的收益对研究企业的收益具有很强的预测能力。国内学者借鉴Lee等(2019)[6]的科技关联指标构建方法,研究该指标在我国股票市场的适用性。李绪泉等(2020)[11]的实证分析结果说明,A股市场存在科技溢出效应。段丙蕾等(2022)[9]进一步证明了科技关联因子仅在周度上具有显著收益预测能力,认为造成这一结果的原因在于A股市场中存在较多博彩倾向的散户投资者,该类投资者追涨杀跌的交易行为缩短了科技关联信息融入股价所需的时间。 对于供应链关联信息,Cohen和Frazzini(2008)[4]、Menzly和Ozbas(2010)[7]验证了公司客户信息能够有效预测公司未来股票收益。国内学者对于供应链关联相关研究相对较少,现有的研究成果也未提供在控制变量基础上,供应链关联能够有效预测股票收益的证据(段丙蕾等, 2022)[9]。 对于地理关联信息,Peng和Lin在其发表论文《Investor Attention, Overconfidence, and Category Learning》(Journal of Financial Economics, 2006)[8]中提出,总部位于同一地理区位的公司,会受到相同基本面因素的影响,从而这些公司股价都会对新信息作出反应。基于这一研究思路,Parsons和Sabbatucci在其发表论文《Geographic Lead-Lag Effects》(The Review of Financial Studies,2018)[1]中提出地理关联公司的概念,具体指与研究个股处于相同地理区位不同行业的所有上市公司。认为地理关联公司股票与目标股票的价格变动存在领先滞后关系(本文将此关系简称为地理关联度),前者对后者未来收益具有预测能力。并且采用面板数据回归方法,实证检验了这一结论。研究结果表明:(1)在控制行业影响基础上,地理关联公司的基本面因素(EPS、销售收入、雇员数量等)变动对目标股票的基本面变动具有显著的解释能力。(2)地理关联公司股票的平均收益对目标股票未来收益具有显著的预测能力,地理关联公司股票的平均收益越高,目标股票未来收益越高。(3)由于证券分析师通常是基于行业而非省份分类的,因此,共同分析师覆盖率提升并不会导致地理关联度的领先滞后关系减弱甚至消失。 综上所述,一方面,与个股自身的动量效应或反转效应相比,地理关联度能够从股票之间的地理关联中挖掘增量信息。另一方面,与其他股票经济关联特征相比,地理关联信息对股票收益的预测能力虽然已在海外市场得到验证,但尚未应用于A股市场。这为本文通过新的经济关联特征挖掘因子提供了新思路。 2.1 地理关联度与A股市场的关系 为探索地理关联度是否适合在A股市场进行实证研究,本报告首先对31个省及自治区行政区内的上市公司数量、数量增长率以及股票月均收益情况进行统计。受篇幅限制,仅对上市公司数量排名前5的省及直辖市(广东省、浙江省、江苏省、北京、上海)统计结果进行展示。 图1和图2表明,2010年至今,TOP5省份上市公司数量占全国上市公司数量的比重不断上升,从2010年占比53.31%升至2022年6月30日的62.06%。此外,不同省份的上市公司数量与数量增长率表现不一。图3表明,从不同省份的月度平均收益来看,虽然收益整体走势与市场行情保持一致,但是省份之间的月均收益存在显著差异。不同省份的上市公司整体表现存在地理区域上的不同。 2.2 地理关联度初步实证结果与改进 本报告借鉴Parsons和Sabbatucci在《Geographic Lead-Lag Effects》(The Review of Financial Studies, 2018)[1]中的指标构建方法,对于某支股票而言,将与之属于相同省份不同行业的所有股票的月度收益均值作为这支股票的月度地理关联度因子。参考上述论文中地理关联度分析思路:当某支股票的地理关联度因子越大时,反映出这支股票的地理关联公司股票收益平均水平越高。如果这支股票对新信息的反应速度相对滞后,那么这支股票很可能在未来一段时间内会由于基本面改善信息而表现为股价上涨。因此,地理关联度因子的投资策略为:在每个换仓日中,根据地理关联度因子值大小,在调仓日买进地理关联度最大的股票,同时卖出地理关联度最小的股票。 本报告在全市场选股范围内,对20100101-20220630区间的地理关联度因子进行月度调仓的回溯测试。实证结果表明,地理关联度因子在A股市场的选股逻辑与上述论文中阐述的逻辑相反:因子值越小,股票未来收益越高。因子的整体IC均值为-0.024,正IC占比34.67%。地理关联度因子在多头相对中证500指数策略的表现较差,策略整体年化收益率7.52%,信息比率0.832,最大回撤17.65%。 由于地理关联度因子在A股市场表现欠佳,本报告对该因子构建方法进行分析并提出因子改进思路。在地理关联度因子构建方法中,仅利用地理关联公司与研究个股归属于同一省级行政区这一特征,但未能反映地理关联公司与研究个股在股价变动上的关联程度。本报告综合考虑上述两点,在考虑股票地理特征的同时,进一步从时序角度考虑地理关联公司与研究个股在过去一段时间内价格变动的相关程度,构建地理相关系数因子(GEOGCORR)及其优化因子,并探讨这类因子在A股的有效性。 三、地理关联度因子构造方法与策略框架 3.1 因子构造方法 根据上述地理关联度研究得出的初步结论,本篇专题报告构建6种地理相关系数类因子,具体的因子定义、构造逻辑与计算方法如下。 3.2 地理相关系数因子 本篇报告定义地理相关系数因子(GEOGCORR),用以度量个股与其地理关联公司股票之间的整体相关程度,具体由个股和地理关联公司股票相关系数均值表示。 以股票i在t月月末的地理相关系数因子为例,具体计算方式如下。首先,在全市场范围剔除t月的st股、*st股、停牌股以及上市不满一年的股票;其次,筛选出与股票i办公地所属省份相同、申万一级行业不同的全部共N支股票j,并分别计算与股票i在t月日频收益序列的皮尔森相关系数,即CORR_(i,j,t)。最后,对所有相关系数进行加权求和(若不做特殊说明,w_(j,t)均设置为1/N,即等权),得到股票i在t月月末换仓日的地理相关系数因子GEOGCORR_(i,t)。 3.3 地理相关系数变动因子 为研究个股与地理关联公司股票的相关程度变动,是否影响地理关联特征对个股的收益预测能力,本报告定义地理相关系数变动因子(GEOGCORRCHG),用以度量个股与关联公司股票整体相关程度的变动情况。 以股票i在t期的因子为例,具体计算方式如下。首先,按照地理相关系数的计算方式,分别计算股票i与股票j的t月日频收益序列的相关系数CORR_(i,j,t)、两者在t-2至t月共3个月的日频收益序列的相关系数CORR_(i,j,t-2,t);其次,对任意股票j,计算1月相关系数与3个月相关系数的差值,衡量股票i与股票j之间相关性变动程度;最后,对N个股票j的相关系数差值进行加权求和,得到股票i在t月月末的地理相关系数变动因子GEOGCORRCHG_(i,t)。 3.3 地理相关系数拆解因子 Bollerslev等(2022)[2]在发表论文《Realized semibetas: Disentangling “good” and “bad” downside risks》(Journal of Financial Economics)中,根据市场收益与资产收益序列的符号将传统市场贝塔拆分为四个半贝塔,并实证说明了基于负市场收益与负资产收益序列协方差构建的半贝塔与资产未来收益显著正相关,基于负市场收益与正资产收益序列协方差构建的半贝塔与资产未来收益显著负相关。这一结论对本报告的启示在于:基于不同数值方向收益序列构建的相关系数,可能蕴含的信息量也存在差异。因此,本报告将股票i与股票j的收益序列进行拆分,并定义四种具体的地理相关系数拆解因子(GEOGCORRP、GEOGCORRN、GEOGCORRIP与GEOGCORRJP),用以度量个股与地理关联公司股票的调整后收益序列的相关程度。 以股票i在t月的地理相关系数拆解因子(GEOGCORRP_(i,t))为例,具体计算方式如下。首先,对于股票i与全部N个股票j,利用R_i^+公式对其日度收益序列进行调整,也就是将负日度收益调整为0。其次,根据地理相关系数因子构造步骤,得到地理相关系数拆解因子GEOGCORRP_(i,t)。其余三种地理相关系数拆解因子(GEOGCORRN_(i,t)、GEOGCORR〖IP〗_(i,t)与GEOGCORR〖JP〗_(i,t))构造方式同理可得。 四、实证分析 4.1 数据说明 选股范围:全市场 股票预处理:剔除非上市、摘牌、ST/*ST、涨跌停板、上市未满1年股票 因子预处理:MAD去极值、Z-Score标准化、行业市值中性化 回测区间:2010.01.01 – 2022.06.30 分档方式:根据当期股票的因子值,从小到大分为十档 调仓周期:每个月最后一个交易日以收盘价调仓 交易费用:千分之三(卖出时收取) 4.2 因子分档表现 在月度调仓的历史回测下,6种地理相关系数类因子的整体分层效果表现不一。具体而言,地理相关系数拆解类因子中,GEOGCORRP因子与GEOGCORRIP因子分层效果显著,分层收益区分度高。 4.3 因子实证结果 整体来看,6种地理相关系数类因子在选股方向上与构建的交易策略保持一致,即个股与地理关联公司股票的整体相关性越高,股票未来收益表现越好。各因子的IC表现、多空对冲策略表现与因子分档测试结果一致,GEOGCORR因子具有最高的IC均值与多空年化收益,其次为GEOGCORRP因子与GEOGCORRIP因子,但GEOGCORRP因子由于回测期的最大回撤相对更低,信息比率高于其他因子。多头相对基准策略表现出现分化,上述两种地理相关系数拆解因子表现优于地理相关系数因子。各因子的多头平均换手率在80%左右。具体来看,GEOGCORR、GEOGCORRP与GEOGCORRIP共3个因子在IC分析、多空策略绩效、多头相对基准策略绩效上总体表现较好。 在全市场选股中,GEOGCORR因子的选股区分度较高,因子IC均值为0.074,正IC占比88.00%,除2017年外,分年度IC均在0.05以上。在多头相对中证500指数的回测中,策略整体的年化超额收益率为13.21%,信息比率为1.55。在2015年市场趋势较大时表现相对较好,除2017年外,其余年份均可取得超额收益。整体换手率保持在77.77%左右。 五、总结 本篇专题报告借鉴Parsons和Sabbatucci在《Geographic Lead-Lag Effects》(The Review of Financial Studies, 2018)[1]中提出的地理关联度概念,通过改进地理关联度指标,构造共6种地理相关系数因子及其优化因子(地理相关系数变动因子、地理相关系数拆解因子),用来衡量个股与地理关联股票之间的相关程度,以期从共同基本面因素变动中获取个股反转收益。 从分档结果来看,6种地理相关系数类因子中,GEOGCORR因子、GEOGCORRP因子与GEOGCORRIP因子在全市场选股范围内的分档效果明显。 从整体表现来看,全市场选股范围内,月频调仓频率下,GEOGCORR因子、GEOGCORRP因子与GEOGCORRIP因子的IC均值在0.06以上,正IC占比均超过85%,多头相对中证500策略中,上述三种因子年化收益率均在13%以上,信息比率均超过1.5,多头换手率在80%左右。 从分年度表现来看,GEOGCORRP因子表现较好。因子IC均值为0.069,正IC占比90%。在多头相对中证500指数的回测中,策略整体的年化收益率为13.98%,信息比率为1.706,整体换手率保持在81.92%左右。 通过对数据预处理后的GEOGCORR因子、GEOGCORRP因子、GEOGCORRIP因子和BARRA因子进行相关性分析,可以发现,地理相关系数类因子能够挖掘传统因子外的增量信息。因此,可以作为新因子加入多因子模型中。 此外,本报告进一步对GEOGCORR因子、GEOGCORRP因子、GEOGCORRIP因子进行了选股范围与手续费率方面的敏感性测试。测试结果表明,前两种因子在中证1000、创业板选股范围内仍具有较好表现。由于因子策略多头换手率较高,地理相关系数类因子对手续费敏感。因此,当考虑利用地理相关系数类因子进行选股时,应当设定合适的选股范围并对手续费率加以考虑。 风险提示: 本专题报告所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时可能存在失效风险; 本专题策略模型在市场结构及交易行为的改变时有可能存在策略失效风险。 详细研究内容请参见广发金工专题报告 《基于地理关联度因子研究--多因子Alpha系列报告之(四十三)》 法律声明: 本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。 完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。 在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。 本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。 本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。