国金证券-Alpha掘金系列之五:如何利用ChatGPT挖掘高频选股因子?-230404

文本预览:
ChatGPT模型介绍及与原理解析 GPT(GenerativePre-trainedTransformer)是一种大语言模型(LLM),能够学习大量文本数据,并推断出文本中词语之间的关系。ChatGPT能够进行连续对话,综合上下文内容进行交流,能完成翻译、撰写邮件、代码等任务。该模型相较于传统LSTM模型的改进之处在于其引用了Transformer模型,对输入数据的不同部分给予不同权重。ChatGPT之所以能够获得如此高的智能水平,参数数量提升所带来的涌现现象(ScalingLaw)和加入RLHF(人类反馈的强化学习)所带来的对于人类偏好理解的提升起到了重要作用。RLHF训练共分为3步,首先聘请40名标注员对指令进行标注,对模型进行微调。然后对模型的不同输出结果进行排序,使其更符合人类预期,并利用排序结果训练一个打分模型(RewardModel)。最终采样新的指令作为输入数据,根据打分模型进一步优化模型的输出结果。结合打分模型训练,得到最终的ChatGPT模型。 ChatGPT提示工程介绍及使用指南 提示工程(PromptEngineering)主要用于开发和优化语言模型中的提示,有效地将ChatGPT用于各种应用和研究主题。掌握并应用好提示工程的技能,不仅能够提高使用人工智能系统的准确性和效率,也能够降低成本并提升使用体验。最基本的提示公式包括角色、任务及指令三个部分,其主要目的在于使模型对于所需要的回答类型和回答方式有一定的指向性。提示的内容越详尽、精确,模型能够给出的回答更能符合我们的预期,从而更便捷得到我们需要的结果。除标准的提示公式外,也有多种针对不同任务类型的提示方式。一种独特的提示方式为思维链提示(Chain-of-ThoughtPrompting),其主要思路为将一个复杂问题拆分成多个步骤,引导模型逐步思考并进行纠偏,最终得到需要的结果。 ChatGPT因子挖掘实战 ChatGPT在量化研究领域同样拥有广泛的使用前景,我们以最常见的因子挖掘作为测试场景,考察模型经过一定的提示后,能否给出符合需求的结果。在中低频领域,ChatGPT给出了价和量的变异系数因子,我们利用5日滚动数据构建因子并进行周度调仓测试。发现因子IC指标表现较好,但多头组超额收益较低,难以成功构建投资策略。另外,我们令ChatGPT模型尝试利用高频数据构建出独特因子,并限定其数据使用范围为委托价和委托量。模型经过一定指导后给出了买卖盘力量因子,经过测试发现买卖盘力量差异因子在日频上表现优异,多头年化超额收益率达到17.29%,但因子衰减速度较快。为符合交易实际,我们针对买盘和卖盘力量因子分别降至周频进行测试,发现虽然因子整体多空单调性一般,但多头组合表现尚可,多头年化超额收益率分别为9.77%和10.20%。最终,我们利用相对表现较好的卖盘力量因子构建中证1000指数增强策略。发现在单边千分之二的手续费率下,策略的年化超额收益率为7.17%,信息比率为0.57。 此外我们对于ChatGPT代码能力进行测试,发现针对常用的量化研究所需框架、函数等能较准确的给出结果,但使用时需要注意代码细节,确保其符合实际需求。对模型所给代码进行微调可以大幅提升研究效率。 风险提示 1、ChatGPT模型具有一定的随机性,在部分情况下可能回答错误,不符合用户需求与认知,并影响到用户判断。 2、以上因子测试结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。 3、策略依据一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。
展开>>
收起<<
《国金证券-Alpha掘金系列之五:如何利用ChatGPT挖掘高频选股因子?-230404(19页).pdf》由会员分享,可在线阅读,更多相关《国金证券-Alpha掘金系列之五:如何利用ChatGPT挖掘高频选股因子?-230404(19页).pdf(19页精品完整版)》请在悟空智库报告文库上搜索。
(以下内容从国金证券《Alpha掘金系列之五:如何利用ChatGPT挖掘高频选股因子?》研报附件原文摘录)ChatGPT模型介绍及与原理解析 GPT(GenerativePre-trainedTransformer)是一种大语言模型(LLM),能够学习大量文本数据,并推断出文本中词语之间的关系。ChatGPT能够进行连续对话,综合上下文内容进行交流,能完成翻译、撰写邮件、代码等任务。该模型相较于传统LSTM模型的改进之处在于其引用了Transformer模型,对输入数据的不同部分给予不同权重。ChatGPT之所以能够获得如此高的智能水平,参数数量提升所带来的涌现现象(ScalingLaw)和加入RLHF(人类反馈的强化学习)所带来的对于人类偏好理解的提升起到了重要作用。RLHF训练共分为3步,首先聘请40名标注员对指令进行标注,对模型进行微调。然后对模型的不同输出结果进行排序,使其更符合人类预期,并利用排序结果训练一个打分模型(RewardModel)。最终采样新的指令作为输入数据,根据打分模型进一步优化模型的输出结果。结合打分模型训练,得到最终的ChatGPT模型。 ChatGPT提示工程介绍及使用指南 提示工程(PromptEngineering)主要用于开发和优化语言模型中的提示,有效地将ChatGPT用于各种应用和研究主题。掌握并应用好提示工程的技能,不仅能够提高使用人工智能系统的准确性和效率,也能够降低成本并提升使用体验。最基本的提示公式包括角色、任务及指令三个部分,其主要目的在于使模型对于所需要的回答类型和回答方式有一定的指向性。提示的内容越详尽、精确,模型能够给出的回答更能符合我们的预期,从而更便捷得到我们需要的结果。除标准的提示公式外,也有多种针对不同任务类型的提示方式。一种独特的提示方式为思维链提示(Chain-of-ThoughtPrompting),其主要思路为将一个复杂问题拆分成多个步骤,引导模型逐步思考并进行纠偏,最终得到需要的结果。 ChatGPT因子挖掘实战 ChatGPT在量化研究领域同样拥有广泛的使用前景,我们以最常见的因子挖掘作为测试场景,考察模型经过一定的提示后,能否给出符合需求的结果。在中低频领域,ChatGPT给出了价和量的变异系数因子,我们利用5日滚动数据构建因子并进行周度调仓测试。发现因子IC指标表现较好,但多头组超额收益较低,难以成功构建投资策略。另外,我们令ChatGPT模型尝试利用高频数据构建出独特因子,并限定其数据使用范围为委托价和委托量。模型经过一定指导后给出了买卖盘力量因子,经过测试发现买卖盘力量差异因子在日频上表现优异,多头年化超额收益率达到17.29%,但因子衰减速度较快。为符合交易实际,我们针对买盘和卖盘力量因子分别降至周频进行测试,发现虽然因子整体多空单调性一般,但多头组合表现尚可,多头年化超额收益率分别为9.77%和10.20%。最终,我们利用相对表现较好的卖盘力量因子构建中证1000指数增强策略。发现在单边千分之二的手续费率下,策略的年化超额收益率为7.17%,信息比率为0.57。 此外我们对于ChatGPT代码能力进行测试,发现针对常用的量化研究所需框架、函数等能较准确的给出结果,但使用时需要注意代码细节,确保其符合实际需求。对模型所给代码进行微调可以大幅提升研究效率。 风险提示 1、ChatGPT模型具有一定的随机性,在部分情况下可能回答错误,不符合用户需求与认知,并影响到用户判断。 2、以上因子测试结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。 3、策略依据一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。