首页 > 公众号研报 > HUATECH洞见丨欧智坚:“半监督+对齐”拥有裸矿掘金的力量

HUATECH洞见丨欧智坚:“半监督+对齐”拥有裸矿掘金的力量

作者:微信公众号【华泰证券频道】/ 发布时间:2023-07-31 / 悟空智库整理
(以下内容从华泰证券《HUATECH洞见丨欧智坚:“半监督+对齐”拥有裸矿掘金的力量》研报附件原文摘录)
  文章开始 编者按:华泰证券近日于2023世界人工智能大会举办“AI大模型的金融数智化机遇”科技金融创新论坛。清华大学副教授欧智坚为我们带来半监督和对齐的思维,探索如何解决大模型专业商用落地的“最后一公里”。 欧智坚 清华大学副教授、博士生导师 语音和智能实验室主任 开采数据裸矿,GPT是数字时代的“蒸汽机” GPT的背后,是无监督的预训练(Unsupervised Pre-training)和有监督的微调(Supervised fine-tuning)协同的半监督式学习。这是在利用生产生活中产生的大量未标注数据方面,GPT提供的重要启发。 在ChatGPT之前,几乎所有人工智能技术的的成功,都建立在对标注数据进行有监督的学习基础之上,比如语音识别、机器视觉、无人驾驶等等。而大量的数据标注本身就与利用大数据的初衷有所背离——数据规模是大数据的基础,标注意味着需要为数据逐一打标签,是费时费力的繁琐工作。以GPT系列为代表的大模型,在有标数据和无标数据混合的情况下,以预训练结合微调的半监督方法,充分展示了半监督式“哲学”的成功。 实际上,大模型对数据的需求,非常契合企业在经营中产生的数据形式。在多年的数字化生产经营活动中,企业通常积淀了大量的文档和数据,除了少数已标注数据外,更多是无标的、待开采的“裸矿”。这些未标注数据此前很难被深度学习利用。以大模型为代表的半监督学习,有望通过少量标注数据,将企业的大量未标注数据也撬动起来。 从某种意义上讲,大模型类似于瓦特蒸汽机在工业革命中的作用。众所周知,瓦特的冷凝式蒸汽机引发了轰轰烈烈的第一次工业革命,但最早的蒸汽机(纽科门蒸汽机)早在瓦特之前半个多世纪就已经被发明出来,只是由于热效率低下,未能用于大规模的工业生产。GPT为代表的大模型,其从数据中获取智能的效率相比于此前有显著提升,有望如冷凝式蒸汽机,突破大规模应用的阈值,真正意义上让AI技术飞入千行百业之中,触发新工业革命。 对齐人类思维,从会“开口”到能“对话” 半监督训练的概念看似容易理解,但由于结合了有监督和无监督两种训练,如何让两者的损失函数能同时达到最小,让两者能真正协同就成了关键问题。在朴素模型中,无监督损失达到最小,与有监督损失达到最小没关系,这样的无监督训练无助于机器学习。 为解决上述目标,GPT的开发公司OpenAI的科学家提出了Principled Unsupervised Learning(原则性无监督学习),通过将有监督的训练目标设置为无监督训练的子目标,并引入少量的标注数据锚定无监督的参数,从而实现了无监督训练与有监督的训练的“对齐”。 这种“对齐”的思维,同样需要被贯彻到训练和测试的流程中。在测试时,我们期望软件系统如何运行,就要以这种期望方式来构建奖励模型,对系统进行训练。如何让GPT响应人类意图呢?首先我们需要了解语言系统。人类的自然语言可以看做是一串“符号序列”,这串符号序列具有很强的表述能力,可以完成任务描述、提问、推理和回答。而GPT的语言系统,本质上是一个自回归模型,基于上文来预测下文,以此最大化语言符号出现的条件似然。但是,这样只能做到让机器“开口”说话,而无法真正意义上与人类“对话”——机器需要能够在真正“听懂”人类在说什么的基础上,做出遵循人类意图的决策,生成自然语言响应。依靠人类的反馈对大语言模型进行微调,使其能够遵循人类的意图。(关于基于人类反馈的强化学习RLHF,详见《专业+数据+场景:同构AI时代金融核心竞争力》) 隐变量半监督模型:进一步提升掘金效率 幻觉(Hallucination)是ChatGPT众所周知的问题——它会随机编造一些根本不存在的答案。这导致了ChatGPT在专用商用领域的最后一公里是不可控的。为了缓解幻觉问题,GPT会根据上文检索部分知识片段,并和上文进行拼接。这个方法有一定的效果,但也存在着两方面问题:一是知识的检索模块和生成模块不是端到端训练,而是分开训练的;二是在进入专业领域的过程中,微调时仍然需要高质量的标注,而标注就意味着繁琐和成本。 基于隐变量的半监督学习,或许能较好地解决在大量未标注数据上进行训练的需求。所谓隐变量,是指不可观测的随机变量。通过搭建隐变量模型,可以通过最大化联合分布的边缘似然函数来估计参数。举例来说,如果基于人工反馈的强化学习是听老师上课,那么基于隐变量的学习就如同看课外书、自学等课外学习。通过不断进行课上课下的反复迭代学习,最终提升模型的可靠性。 在实战场景中,这种隐变量半监督的模型仅用10%左右的标注,就接近实现了全监督的效果。由于充分利用了无标数据,大大降低了人工辅助标注和反馈成本,实现“从裸矿中掘金”。 “巨型AI模型的时代已经结束了,未来人工智能的进步将需要新的想法。”2023年4月17日,在GPT风头正盛之时,OpenAI的CEO如此表示。未来人工智能技术的进一步落地,必然需要综合考虑技术成熟度和成本边界,在这一点上,实现知识对齐的半监督式模型是值得探索的方向。 |免责声明| 特别提示:文中观点仅代表个人意见,不代表华泰证券(以下简称“本公司”)立场,也不构成对读者的投资建议。本公司或本公司相关机构、雇员不对任何人使用此全部或部分内容的行为或由此而引致的任何损失承担任何责任。未经本公司事先书面许可,任何人不得将本文或其任何部分以任何形式进行派发、复制、转载或发布,或对本文内容进行任何有悖原意的删节或修改。市场有风险,投资需谨慎。 你可能会感兴趣 华泰证券携手世界人工智能大会,洞察AI大模型的投资机遇 HUATECH洞见丨任福继:跳出GPT框架,AGI需要理解和数据双驱的新范式 HUATECH洞见丨范承工:突破互联极限,CXL叩开大内存时代 HUATECH洞见丨陈齐彦:从局部创新到大模型崛起的开源故事 HUATECH洞见丨大模型推动网络技术革新:迈向统一开放,突破算力瓶颈 文章结束

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。