首页 > 公众号研报 > 【广发金融工程】日内价量数据因子化研究:高频数据因子研究系列八

【广发金融工程】日内价量数据因子化研究:高频数据因子研究系列八

作者:微信公众号【广发金融工程研究】/ 发布时间:2022-07-05 / 悟空智库整理
(以下内容从广发证券《【广发金融工程】日内价量数据因子化研究:高频数据因子研究系列八》研报附件原文摘录)
  摘 要 因子开发迭代更新越来越重要。 近几年来,随着传统多因子模型在市场的应用逐渐广泛,因子的波动特征逐渐加大,因子拥挤等原因造成了因子的收益逐渐下降。为了能够寻找更多的Alpha来源,在多因子模型框架中,因子作为底层基础,因子的开发、迭代、更新就显得越来越重要。低频相关数据的因子开发对于目前新Alpha收益来源来说,边际贡献已越来越小,高频数据在用于量化投资中存在一定优势。本篇专题探讨日内高频数据在因子选股中的应用。 交易活动分析与信息不对称理论。 市场微观结构理论认为,市场中存在具有信息优势与不具有信息优势的两类参与者,而信息优势交易者所拥有的信息对资产的定价具有显著影响。有学者从交易活动角度论证,信息优势交易者会基于增量信息进行反转交易并从中获利,而非信息优势交易者则基于短期流动性需求或非有效信息进行趋势交易蒙受损失。基于交易行为分析,本报告构建动态DPIN因子及其衍生因子,研究该类因子在选股中的应用。 DPIN因子实证分析。 在全市场范围内,周度调仓频率下,在回测期内刻画DPIN日内交易结构特征的部分DPIN_MEAN、DPIN_STD、DPIN_STABLE类因子分档单调性显著,同时IC指标、多空收益、多头相对基准策略测试表现较好。在全市场选股范围,DPIN_SMALL_PM_MEAN因子IC均值为0.044,正IC占比84.4%,多头相对中证800策略整体年化收益率为23.4%,信息比率为1.31;DPIN_BASE_MIDDLE_STD因子IC均值为0.061,正IC占比72.4%,多头相对中证800策略整体年化收益率为18.8%,信息比率为1.08;DPIN_SMALL_TOTAL_STABLE因子IC均值为-0.059,负IC占比为72.4%,多头相对中证800策略整体年化收益率为19.2%,信息比率为1.09。 DPIN因子相关性分析与敏感性测试。 DPIN类因子与部分BARRA因子存在一定程度相关性。相较于创业板指、沪深300选股范围,DPIN类因子在中证1000、中证500范围内具有较好绩效表现。该类因子在更高调仓频率下表现更好,但多头平均换手率较高。 风险提示。 策略模型并非百分百有效,市场结构及交易行为的改变以及类似交易参与者的增多有可能使得策略失效。 正 文 一、高频因子思考 1.1 从低频信息到高频信息 近年来,A股市场机构化趋势明显,量化私募机构的管理规模也迅速扩大,产生了一批管理规模超过百亿的量化私募机构。与此同时,传统的风格因子波动增大,从市场获取超额收益的难度在增加。 因子拥挤是因子收益下降的原因之一。因子代表着市场某方面的非有效性、或者是一段时期内的定价失效。当某类因子收益高的时候,会吸引更多的资金进入,从而出现因子拥挤,降低因子的预期收益。一旦新的因子被公开,套利资金的介入会使得错误定价收窄,因子收益也会跟着下降。因此,在多因子选股模型中,因子的开发和更新迭代变得越来越重要。 以传统日频价量和更低频财务数据为基础的因子开发是一种研究途径。由于基础因子广为人知,在此基础上进行因子挖掘的收益提升空间相对有限。而且日频数据由于本身的数据量和信息量有限,过度挖掘会增大过拟合的风险。 以高频价量数据为基础的因子开发在当下具有更大的收益提升空间。与低频因子相比,高频数据在用于量化投资中存在一定优势。 首先,高频价量数据的体量明显大于低频数据。以分钟行情为例,用压缩效果较好的mat格式存储2020年全市场股票的分钟行情数据(包括分钟频的开高低收价格数据、买卖盘挂单数据等),约为12GB。如果是快照行情(目前上交所和深交所都是3秒一笔)或者level 2行情,数据量要大很多。因此,高频数据因子挖掘对信息处理能力和处理效率的要求较高。而且,日内数据,尤其是level 2数据,一般要额外付费,甚至需要自行下载存储实时行情,在此基础上构建的因子拥挤度较低。 其次,高频价量数据一般是多维的时间序列数据,数据中噪声比例较高,而且与ROE、PE这类低频指标本身就具有选股能力不同的是,原始的高频行情数据一般不能直接用作选股因子,而要通过信号变换、时间序列分析、机器学习等方法从高频数据中构建特征,才能作为选股因子。此类因子与低频信号的相关性较低,而且由于因子开发流程相对复杂,不同投资者构建的因子更具有多样性。 此外,高频数据开发的因子一般调仓周期较短,意味着在检验因子有效性的时候,同一段测试期具有更多的独立样本。例如,在一年的测试期内,只有12个独立的样本段用于检验月频调仓的因子,与之相比,有约50个独立的时段用于检验周频调仓因子,有超过240个独立的时段用于检验日频调仓的因子。独立样本的增多有助于检验高频因子的有效性。 高频数据挖掘因子的难点在于数据维度大、噪声高。凭借专业投资者的经验或者是参阅已发表的文献,可以从高频数据中提炼出一部分有选股能力的特征。此外,机器学习方法擅长从数据中寻找规律和特征,是高频数据因子挖掘的有力工具。本篇专题报告通过学术上关于高频相关的研究结果借鉴,从高频价量数据中提炼选股因子。 二、研究进展 传统的有效市场假说认为,在完全有效的金融市场上,价格能够充分反映资产的所有公开信息以及私有信息。然而,现实世界中由于存在交易摩擦、投资者非理性行为、信息非完全公开等现象,拥有更多私人信息的市场参与者相对于信息匮乏的市场参与者而言,往往处于市场的有利地位。市场微观结构理论将市场参与者划分为拥有私人信息的交易者与没有私人信息的交易者两类,认为信息对资产价格的确定具有重大影响。在市场存在信息不对称时,具有私人信息的交易者会利用信息优势进行交易从而做出对自己有利的投资决策。同时,这种行为对于信息落后的交易者而言是一种投资风险,在市场交易的过程中使其处于劣势地位,从而蒙受损失。因此,如何衡量信息不对称的程度,进而规避由此带来的投资风险成为理论研究者以及业界关注的热点。 根据学术研究成果,信息不对称的度量主要经历了两个阶段:间接度量阶段与直接度量阶段。在早期研究阶段,买卖价差、换手率、股票价格方差等指标被用于信息不对称的替代变量进行研究,虽然这些变量和信息不对称都存在着因果关系,能够在一定程度上反映股票交易中蕴含的信息不对称水平,但是间接指标刻画知情交易导致的投资风险的准确性仍有进步的空间。 1996年,Easley等人发表论文《Liquidity, Information, and Infrequently Traded Stocks》,基于交易委托单数据构建混合泊松分布模型,利用极大似然估计方法计算出信息优势交易者占总交易的比例,即信息优势的交易概率(Probability of information-based trade, 简称为PIN),使得对于信息不对称的度量进入直接度量阶段。在近二十多年,国内外学者纷纷对PIN模型进行深入探讨。 理论研究方面,学者利用参数与非参数的估计模型,对原始PIN模型进行改进,提出了对此度量更多深入的探讨。例如,Easley等人在《Flow Toxicity and Liquidity in a High-frequency World》(2012)论文中,规避了PIN模型极大似然估计方法计算复杂、数值优化过程耗时长等缺陷,利用非参数估计方法,基于同等交易量时间区间内的买卖订单交易量不平衡性能够测度信息优势交易概率的思路,在严格的数学推导过程中构建交易量实时更新的信息优势交易概率(Volume Synchronized PIN,简称为VPIN)模型。为应对VPIN模型在实证研究中曾出现度量失效的现象,李平等人于2020年发表论文《知情交易概率于风险定价——基于不同PIN测度方法的比较研究》,继承VPIN模型蕴含的买卖订单交易量不平衡程度能够反映信息优势交易信息的逻辑,将订单数量不平衡性同时纳入模型中,提出基于物理时间和交易量加权的信息优势交易概率 (volume-weighted probability of informed trading,简称为VWPIN)模型。实证分析方面,利用国内外多个股票市场数据,分析了其在股票资产定价、风险管理等多个领域的应用。 2.1 PIN模型 Easley等人在其发表论文《Price, trade size, and information in securities markets》(Journal of Financal Economics, 1987)中,基于计量经济学分析和经济理论,提出了用于分析市场资产价格发现过程的序贯交易模型(Sequential trade model)。而经典的信息优势交易概率(Probability of information-based trade, 简称为PIN)模型正是在序贯交易模型的基础上,通过构建服从混合泊松分布的买卖订单流,并用极大似然估计方法对其求解得到的。详细建模步骤如下: 2.2 DPIN模型 由于PIN模型存在改进的空间,Chang等人在其发表论文《A dynamic intraday measure of the probability of informed trading and firm-specific return variation》(Journal of Empirical Finance, 2014)中,扩展了Campbell等人(1993)用于分析股票市场总体交易量与股票日度收益序列相关性之间关系的交易模型,以及Avramov等人(2006)在研究得到信息后卖出交易对个股价格波动率影响时构建的自相关回归模型,同时考虑信息优势买入交易以及信息优势卖出交易,利用日内高频量价数据构建了DPIN模型。 为具体说明DPIN模型的内在逻辑,首先需要理解以下两个结论。Campbell等人(1993)认为,股票价格变动来源于两点原因,一是影响股票价值的信息,二是流动性需求或非信息优势交易。前者会融入价格,但不会带来反转交易;后者作为非理性交易,会给个股带来短期供需压力并造成价格波动,使得股票市场价格偏离合理价值,进而可能带来反转交易。该论文实证结果表明,非信息优势交易与个股收益的序列相关性呈现负相关性,而信息优势交易不存在类似关系。基于此,Avramov等人(2006)进一步研究两类卖出交易活动对收益序列相关性产生的影响。结果表明,与羊群交易相关的未预期收益序列存在显著负序列相关性,与反转交易相关的未预期收益序列不存在显著的同类关系。换言之,反转交易可作为信息优势交易的代理变量,羊群交易可作为非信息优势交易的代理变量。 基于上述实证研究结论,DPIN模型同时考虑信息优势买入与信息优势卖出交易,认为非预期收益为正(负)时,卖出(买入)交易占总交易比重为信息优势交易概率;当非预期收益为正(负)时,买入(卖出)交易占总交易比重为非信息优势交易概率。 具体的DPIN_BASE模型构建步骤如下: 因此,本篇专题报告将基于信息不对称理论,探讨交易活动视角下构造的DPIN因子在A股的有效性。 三、DPIN因子构造 3.1 DPIN因子构造 至此,本报告已说明DPIN_BASE、DPIN_SIZE、DPIN_SMALL三类DPIN因子的构造步骤。由于最原始的DPIN因子为5分钟高频因子,能够较为具体的刻画股票日内“U型”或“倒U型”交易结构。为充分获取DPIN因子蕴含的日内交易结构信息,本报告进一步构建两类DPIN因子。 3.2 DPIN因子计算步骤 本报告在后文实证分析、相关性分析以及敏感性分析中所使用的各类DPIN因子,均为调仓频率下的平滑因子。例如,实证分析测试频率为周度换仓,那么具体测试的因子值均为单周所有交易日日度DPIN因子值的平均值,其他调仓频率下的DPIN因子取值同理。此外,所有因子值在选股应用前,均经过MAD法去极值、Z-Score标准化以及行业市值中性化处理。 五、实证分析 5.1 数据说明 选股范围:全市场 股票预处理:剔除ST/ST*、涨跌停板、上市未满1年股票 因子预处理:MAD去极值、Z-Score标准化、行业市值中性化 回测区间:2010.01.01 – 2022.03.31 分档方式:根据当期股票的因子值,从小到大分为十档 调仓周期:每周最后一个交易日以收盘价调仓 交易费用:千分之三(卖出时收取) 5.2 因子分档表现 5.3 DPIN因子实证结果 在全市场选股中,DPIN_SMALL_PM_MEAN因子整体表现较好,2022年仍持续有效。IC值方面,因子IC均值为0.044,正IC占比84.4%。多空策略方面,策略整体年化收益率为37.5%,信息比率为3.66。多头相对中证800指数策略方面,策略整体的年化收益率为23.4%,信息比率为1.31,除2017年外,其余年份均可取得超额收益。策略的年度最大回撤发生在2015年,为39.2%,整体换手率保持在82.5%左右。对于考虑行业中性化的多头相对中证800指数策略,整体的年化收益率为19.4%,信息比率为1.65,策略的年度最大回撤发生在2015年,为18.7%,整体换手率降低至78.4%左右。 今年以来,DPIN_SMALL_PM_MEAN因子录得IC均值0.018,正IC占比66.67%,多空对冲策略年化收益率7.3%,多头相对中证800指数策略年化收益率为22.0%,信息比率为1.80,考虑行业中性的多头相对中证800指数对冲策略年化收益率27.7%,信息比率为3.55。 六、总结 本篇报告从信息不对称理论的直接度量指标出发,综合考虑多个指标的理论逻辑后,通过分析不同类型投资者的交易行为,构建不同维度的DPIN因子,分别用来衡量个股动态日内知情交易概率的平均水平、分散度以及稳定性,以期从信息优势交易背后所蕴含的增量信息中获利。 对于DPIN_MEAN类因子而言,在全市场选股中,DPIN_SMALL_PM_MEAN因子整体表现相对较好。IC值方面,因子IC均值为0.044,正IC占比84.4%。多空策略方面,策略整体年化收益率为37.5%,信息比率为3.66。多头相对中证800指数策略方面,策略整体的年化收益率为23.4%,信息比率为1.31。对于考虑行业中性化的多头相对中证800指数策略,整体的年化收益率为19.4%,信息比率为1.65。 对于DPIN_STD类因子而言,在全市场选股中,DPIN_BASE_MIDDLE_STD因子整体表现相对较好。IC值方面,因子IC均值为0.061,正IC占比72.4%。多空策略方面,策略整体年化收益率为44.3%,信息比率为3.16。多头相对中证800指数策略方面,策略整体的年化收益率为18.8%,信息比率为1.08。对于考虑行业中性化的多头相对中证800指数策略,整体的年化收益率为13.4%,信息比率为1.13。 对于DPIN_STABLE类因子而言,在全市场选股中DPIN_SMALL_TOTAL_STABLE因子整体表现相对较好。IC值方面,因子IC均值为-0.059,负IC占比72.4%。多空策略方面,策略整体年化收益率为41.5%,信息比率为2.82。多头相对中证800指数策略方面,策略整体的年化收益率为19.2%,信息比率为1.09。对于考虑行业中性化的多头相对中证800指数策略,整体的年化收益率为15.8%,信息比率为1.32。 通过对数据预处理后的DPIN因子和BARRA因子进行相关性分析,可以发现DPIN类因子与部分BARRA因子存在一定程度相关性,例如考虑行为特征的3类DPIN因子均表现出与流动性因子STOM存在一定程度的相关性。因此在考虑将DPIN类因子加入多因子模型前,须对DPIN类因子与现有因子进行相关性分析。 此外,本报告还通过敏感性测试,研究了DPIN因子在不同选股范围的适用性以及对于不同调仓周期的敏感性。结果显示,DPIN因子在中证1000、中证500选股范围具有更好表现;在2天、3天的调仓频率下具有更高的IC显著性水平,多空策略收益、多头相对基准收益和更高的多头平均换手率。因此,当应用DPIN因子进行选股,需要在收益与换手率之间权衡,以规避高换手率带来的高手续费成本问题。 风险提示:策略模型并非百分百有效,市场结构及交易行为的改变以及类似交易参与者的增多有可能使得策略失效。 详细研究内容请参见广发金工专题报告 《日内价量数据因子化研究-高频数据因子研究系列八》 法律声明: 本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。 完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。 在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。 本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。 本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。