首页 > 公众号研报 > 【广发金融工程】信息不对称理论下的因子研究:高频数据因子研究系列六

【广发金融工程】信息不对称理论下的因子研究:高频数据因子研究系列六

作者:微信公众号【广发金融工程研究】/ 发布时间:2022-04-11 / 悟空智库整理
(以下内容从广发证券《【广发金融工程】信息不对称理论下的因子研究:高频数据因子研究系列六》研报附件原文摘录)
  摘 要 因子开发迭代更新越来越重要。 近几年来,随着传统多因子模型在市场的应用逐渐广泛,因子的波动特征逐渐加大,因子拥挤等原因造成了因子的收益逐渐下降。为了能够寻找更好的Alpha收益,在多因子模型框架中,因子作为底层基础,因子的开发、迭代、更新就显得越来越重要。低频相关的数据的因子开发目前边际上的贡献已越来越小,高频数据在用于量化投资中存在一定优势。本篇专题探讨日内高频数据在因子选股中的应用。 信息不对称理论。 在个股的交易中,基于市场的非充分有效特征,存在拥有信息优势的交易者,在市场的微观结构中可能更加如此。微观结构理论将市场参与者划分为拥有信息优势的交易者与没有信息优势的交易者两类,认为信息对资产的定价具有较大影响。基于信息不对称理论下的市场微观结构构建VWPIN因子,研究该因子在选股中的应用。 VWPIN因子实证分析。 因子分档实证分析结果表明,在周度调仓频率下,在回测期内VWPIN因子在全市场、中证1000、中证800、中证500以及创业板范围内因子分档单调性显著。从整体角度看,全市场范围内VWPIN因子选股效果较好,中性化因子IC均值为0.06,正IC占比76.59%,多头相对中证800年化收益率为19.07%,年化波动率16.15%,最大回撤33.71%,信息比率为1.18;中证500指数内,VWPIN因子IC均值为0.04,正IC占比为66.12%,多空对冲策略年化收益率为17.61%,年化波动率为9.99%,信息比为1.76,最大回撤为18.60%。与BARRA因子之间的相关性较低,能够将其作为新的高频技术性因子加入多因子模型中。 风险提示。 策略模型并非百分百有效,市场结构及交易行为的改变以及类似交易参与者的增多有可能使得策略失效。 正 文 一、高频因子思考 1.1 从低频信息到高频信息 近年来,A股市场机构化趋势明显,量化私募机构的管理规模也迅速扩大,产生了一批管理规模超过百亿的量化私募机构。与此同时,传统的风格因子波动增大,从市场获取超额收益的难度在增加。 因子拥挤是因子收益下降的原因之一。因子代表着市场某方面的非有效性、或者是一段时期内的定价失效。当某类因子收益高的时候,会吸引更多的资金进入,从而出现因子拥挤,降低因子的预期收益。一旦新的因子被公开,套利资金的介入会使得错误定价收窄,因子收益也会跟着下降。因此,在多因子选股模型中,因子的开发和更新迭代变得越来越重要。 以传统日频价量和更低频财务数据为基础的因子开发是一种研究途径。由于基础因子广为人知,在此基础上进行因子挖掘的收益提升空间相对有限。而且日频数据由于本身的数据量和信息量有限,过度挖掘会增大过拟合的风险。 以高频价量数据为基础的因子开发在当下具有更大的收益提升空间。与低频因子相比,高频数据在用于量化投资中存在一定优势。 首先,高频价量数据的体量明显大于低频数据。以分钟行情为例,用压缩效果较好的mat格式存储2020年全市场股票的分钟行情数据(包括分钟频的开高低收价格数据、买卖盘挂单数据等),约为12GB。如果是快照行情(目前上交所和深交所都是3秒一笔)或者level 2行情,数据量要大很多。因此,高频数据因子挖掘对信息处理能力和处理效率的要求较高。而且,日内数据,尤其是level 2数据,一般要额外付费,甚至需要自行下载存储实时行情,在此基础上构建的因子拥挤度较低。 其次,高频价量数据一般是多维的时间序列数据,数据中噪声比例较高,而且与ROE、PE这类低频指标本身就具有选股能力不同的是,原始的高频行情数据一般不能直接用作选股因子,而要通过信号变换、时间序列分析、机器学习等方法从高频数据中构建特征,才能作为选股因子。此类因子与低频信号的相关性较低,而且由于因子开发流程相对复杂,不同投资者构建的因子更具有多样性。 此外,高频数据开发的因子一般调仓周期较短,意味着在检验因子有效性的时候,同一段测试期具有更多的独立样本。例如,在一年的测试期内,只有12个独立的样本段用于检验月频调仓的因子,与之相比,有约50个独立的时段用于检验周频调仓因子,有超过240个独立的时段用于检验日频调仓的因子。独立样本的增多有助于检验高频因子的有效性。 高频数据挖掘因子的难点在于数据维度大、噪声高。凭借专业投资者的经验或者是参阅已发表的文献,可以从高频数据中提炼出一部分有选股能力的特征。此外,机器学习方法擅长从数据中寻找规律和特征,是高频数据因子挖掘的有力工具。本篇专题报告通过学术上关于高频相关的研究结果借鉴,从高频价量数据中提炼选股因子。 二、研究进展 传统的有效市场假说认为,在完全有效的金融市场上,价格能够充分反映资产的所有公开信息以及私有信息。然而,现实世界中由于存在交易摩擦、投资者非理性行为、信息非完全公开等现象,拥有更多私人信息的市场参与者相对于信息匮乏的市场参与者而言,往往处于市场的有利地位。市场微观结构理论将市场参与者划分为拥有私人信息的交易者与没有私人信息的交易者两类,认为信息对资产价格的确定具有重大影响。在市场存在信息不对称时,具有私人信息的交易者会利用信息优势进行交易从而做出对自己有利的投资决策。同时,这种行为对于信息落后的交易者而言是一种投资风险,在市场交易的过程中使其处于劣势地位,从而蒙受损失。因此,如何衡量信息不对称的程度,进而规避由此带来的投资风险成为理论研究者以及业界关注的热点。 根据学术研究成果,信息不对称的度量主要经历了两个阶段:间接度量阶段与直接度量阶段。在早期研究阶段,买卖价差、换手率、股票价格方差等指标被用于信息不对称的替代变量进行研究,虽然这些变量和信息不对称都存在着因果关系,能够在一定程度上反映股票交易中蕴含的信息不对称水平,但是间接指标刻画知情交易导致的投资风险的准确性仍有进步的空间。 1996年,Easley等人发表论文《Liquidity, Information, and Infrequently Traded Stocks》,基于交易委托单数据构建混合泊松分布模型,利用极大似然估计方法计算出信息优势交易者占总交易的比例,即信息优势的交易概率(Probability of information-based trade, 简称为PIN),使得对于信息不对称的度量进入直接度量阶段。在近二十多年,国内外学者纷纷对PIN模型进行深入探讨。 理论研究方面,学者利用参数与非参数的估计模型,对原始PIN模型进行改进,提出了对此度量更多深入的探讨。例如,Easley等人在《Flow Toxicity and Liquidity in a High-frequency World》(2012)论文中,规避了PIN模型极大似然估计方法计算复杂、数值优化过程耗时长等缺陷,利用非参数估计方法,基于同等交易量时间区间内的买卖订单交易量不平衡性能够测度信息优势交易概率的思路,在严格的数学推导过程中构建交易量实时更新的信息优势交易概率(Volume Synchronized PIN,简称为VPIN)模型。为应对VPIN模型在实证研究中曾出现度量失效的现象,李平等人于2020年发表论文《知情交易概率于风险定价——基于不同PIN测度方法的比较研究》,继承VPIN模型蕴含的买卖订单交易量不平衡程度能够反映信息优势交易信息的逻辑,将订单数量不平衡性同时纳入模型中,提出基于物理时间和交易量加权的信息优势交易概率 (volume-weighted probability of informed trading,简称为VWPIN)模型。实证分析方面,利用国内外多个股票市场数据,分析了其在股票资产定价、风险管理等多个领域的应用。 2.1 PIN模型 Easley等人在其发表论文《Price, trade size, and information in securities markets》(Journal of Financal Economics, 1987)中,基于计量经济学分析和经济理论,提出了用于分析市场资产价格发现过程的序贯交易模型(Sequential trade model)。而经典的信息优势交易概率(Probability of information-based trade, 简称为PIN)模型正是在序贯交易模型的基础上,通过构建服从混合泊松分布的买卖订单流,并用极大似然估计方法对其求解得到的。详细建模步骤如下: 2.2 交易量实时更新的知情交易概率(VPIN)模型 交易量实时更新的Volume Synchronized PIN模型,简称为VPIN模型,是一种非参数估计模型。与PIN模型相比,它不需要进行复杂的极大似然估计获得知情交易概率的隐含参数,而是通过计算等交易量区间的交易量不平衡性来获得信息优势交易概率的测度。该模型的内在逻辑是:在高频交易的现实世界中,当信息连续地到达市场,投资者也会连续地对信息进行分析并做出交易决策。由于投资交易并不服从均匀分布,而是具有一定的不规则性, 那么同一信息引起的交易行为将以不同速度到达市场。基于上述思路,通过度量单位时间内的交易量的不平衡性所构建的PIN模型则与现实情况存在偏差,因此VPIN模型对此进行优化。该模型以相同的交易量划分交易区间,认为只有当交易量达到设定的阈值时,信息才完全融入了市场中。具体的VPIN模型构建步骤如下: 2.3 交易量加权的知情交易概率(VWPIN)模型 三、VWPIN因子构造 3.1 VWPIN因子构造 根据信息不对称理论及VWPIN模型的定义,本篇专题报告构建VWPIN因子,用来衡量市场中个股反映信息不对称程度的知情交易概率。 3.2 VWPIN因子计算步骤 VWPIN模型的计算是利用个股的区间交易量、区间主买(卖)成交笔数来实现的,其中买卖交易方向依据Lee-Ready算法事先进行判断。具体计算如下:首先,在第t天第i个交易区间,利用个股的主买(卖)成交笔数计算交易数量的不平衡性,以刻画知情交易概率;其次,根据第t天全天总体交易量与第i个交易区间的交易量数据,计算个股区间交易量占比,以反映这一区间知情交易概率涵盖信息量的重要程度;再次,将前两步获得的第i个交易时段的交易量占比权重与交易概率相乘;最后,将个股在第t天所有交易区间的加权概率求和,得到VWPIN因子。为得到VWPIN平滑因子,还需要在VWPIN因子基础上,对个股在周/月内的VWPIN因子数据求均值,如果在频率内存在无数据的情况,对这些交易日进行剔除,再计算个股的VWPIN平滑因子,VWPIN因子计算步骤流程如下图所示: 3.3 VWPIN因子计算举例 假设当前交易日为t,每5分钟作为一个交易区间,则交易区间为i=1,2…48,那么VWPIN因子计算举例如下图所示。特此说明,基于下图构建的VWPIN因子仅为原始因子值。在后文实证分析、相关性分析以及敏感性分析中,所用的因子值均为在原始因子值的基础上,经过了MAD法去极值、Z-Score标准化以及行业市值中性化处理后的VWPIN因子和VWPIN平滑因子。 四、基于VWPIN因子的选股策略构建 4.1 VWPIN因子策略构建框架 据此,本篇专题报告构建如下交易策略:根据个股的信息优势交易概率度量,在调仓日买进VWPIN最大的组合,同时卖出VWPIN最小的组合。 五、实证分析 5.1 数据说明 选股范围:全市场、中证500、中证800、创业板指、沪深300 股票预处理:剔除非上市、摘牌、ST/ST*、涨跌停板、上市未满1年股票 因子预处理:MAD去极值、Z-Score标准化、行业市值中性化 回测区间:2010.01.01 – 2021.12.31 分档方式:根据当期股票的因子值,从小到大分为十档/五档 调仓周期:每个月/每周最后一个交易日以收盘价调仓 交易费用:千分之三(卖出时收取) 5.2 因子分档表现 在月度调仓、周度调仓的历史回测下,VWPIN因子在沪深300分档效果不明显,区分度一般,在其他板块中5档分档下,整体因子单调性显著。 5.3 VWPIN因子实证结果 在全市场选股中,VWPIN因子表现出较好的选股区分度,因子IC均值为0.063,正IC占比76.59%。在多头对冲中证800指数的回测中,策略整体的年化收益率为19.07%,信息比率为1.181。在2010、2013、2015年市场趋势较大时表现相对较好,除2017和2020年外,其余年份均可取得超额收益。策略的最大回撤发生在2015年,为33.71%,整体换手率保持在55.73%左右。 5.3 VWPIN因子与BARRA因子相关性分析 CNE6版本的BARRA因子模型将股票因子划分为市场、价值、成长、盈利、波动等大类因子。传统BARRA因子已经在市场中得到验证,能够较有效地刻画股票特征。本节将对VWPIN因子、VWPIN_SMOOTH因子与BARRA因子进行相关性分析。 本小节将数据预处理(MAD法去极值、Z-Score标准化、行业市值中性化)后的VWPIN因子、VWPIN平滑因子与BARRA原始因子值进行Spearman秩相关性分析,相关性如下表所示。可以发现,VWPIN(VWPIN平滑)因子与BARRA因子之间的相关性较低,能够作为新的高频技术性因子加入多因子模型中。 5.4 VWPIN因子敏感性分析 尽管上述分析表明,基于VWPIN因子、VWPIN平滑因子的选股策略能够在全市场、创业板选股范围内表现相对较好,但是在分年度换手率分析中,两类因子都呈现出高换手率的特征,这将使得策略对于手续费的设定较为敏感。因此,本节将重点分析VWPIN因子及VWPIN平滑因子对于手续费的敏感性。具体而言,分别测试了不同选股范围内,因子在千一、千三、千五手续费费率设置下的多头基准对冲净值走势。 扣除千三的手续费后,全市场、中证1000以及中证500选股策略能够获得超额收益。 六、总结 本篇报告从信息不对称理论的直接度量指标出发,综合考虑多个指标的理论逻辑后,构建VWPIN与VWPIN平滑因子,以期从信息不对称造成的风险溢价中获利。 从因子分档结果来看,VWPIN因子与VWPIN平滑因子在全市场、中证1000、中证800、中证500以及创业板范围内的分档效果明显。 从因子IC值统计结果来看,VWPIN因子与VWPIN平滑因子的IC均值在0.033-0.064范围内,正IC占比均保持在60%以上,近十年累计IC值均在20以上。整体来看,五档周频调仓参数下,全市场范围内VWPIN因子选股表现较好,因子IC均值为0.063,正IC占比76.59%,近十年累计IC值38.72。从多头指数对冲策略表现来看,VWPIN因子与VWPIN平滑因子的整体年化收益率在7%-20%范围内。 通过对数据预处理后的VWPIN因子与VWPIN平滑因子和BARRA因子进行相关性分析,可以发现VWPIN(VWPIN平滑)因子与BARRA因子之间的相关性较低,因此能够将其作为新的高频技术性因子加入多因子模型中。 此外,本报告还对VWPIN因子与VWPIN平滑因子对于手续费的敏感性进行测试。结果显示,VWPIN因子由于具有高换手率特征,对手续费费率设置更加敏感。 风险提示:策略模型并非百分百有效,市场结构及交易行为的改变以及类似交易参与者的增多有可能使得策略失效。 详细研究内容请参见广发金工专题报告 《信息不对称理论下的因子研究:高频数据因子研究系列六》 法律声明: 本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。 完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。 在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。 本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。 本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。