华泰期货-量化专题报告:量化模型的信息量准则-180604

《华泰期货-量化专题报告:量化模型的信息量准则-180604(9页).pdf》由会员分享,可在线阅读,更多相关《华泰期货-量化专题报告:量化模型的信息量准则-180604(9页).pdf(9页精品完整版)》请在悟空智库报告文库上搜索。
模型选择问题简介
量化模型通常会涉及到超参数的使用,例如用到的特征数量、延时数量或者训练样本的时间窗口等,如何决定这些超参数需要一定的技巧。如果我们希望利用量化模型解释某种现象时可以考虑模型对数据的拟合度。比如我们用均方根误差来衡量模型的拟合度,则均方根误差越小模型对数据的拟合效果就越好。一般来讲如果模型的参数数量越多数据的拟合效果就越好。但是如果要把量化模型应用到实际交易当中,除了模型对数据的拟合效果外,更重要的是模型对数据的预测效果。这时对数据拟合得最好的模型并不一定是最好的。考察模型的预测效果通常使用的是与训练模型不一样的数据,即样本外数据。这样做通常会涉及到额外的计算量。如果模型训练比较耗时,那么单纯使用样本外数据的方法实际上也并不具有操作性。
在这篇报告里我们讨论几种较常见的模型选择准则,第一种是 AIC(Akaike information criterion),该准则用来平衡模型的拟合度和自由参数的数量,第二种是 BIC(Bayesianinformation criterion),该准则在第一种基础上还考虑了模型样本数量的影响,而且对参数数量的惩罚要比 AIC 大,第三种是 CV(Cross Validation), 这种方法并不使用全部样本来训练模型而是预留一定数量的样本用来做独立的模型评价。本报告利用周频时间序列模型作为例子,这个模型根据基本面数据对期货主力合约未来一周的收益率进行预测,里面涉及到因子数量和周度延时两个超参数。这两个超参数根据这三种信息量准则进行选择,然后根据计算量和样本外回测效果来评价这三种信息量准则。