首页 > 公众号研报 > 【华泰科技】AI:GPT-4有什么不同

【华泰科技】AI:GPT-4有什么不同

作者:微信公众号【华泰证券科技研究】/ 发布时间:2023-03-16 / 悟空智库整理
(以下内容从华泰证券《》研报附件原文摘录)
  如果您希望第一时间收到推送,别忘了加“星标”! 当地时间3月14日,OpenAI正式发布GPT-4。我们认为GPT-4相比GPT-3.5有以下升级:1)多模态能力;2)推理能力;3)同时推出便于落地的工具。此外,我们注意到OpenAI继AGI路线图强调AI公平性与可控性之后,本次推出GPT-4时,继续强调其在大模型安全可控上做出的努力。 核心观点 GPT4有何不同:多模态、推理能力、预测扩展性 当地时间3月14日,OpenAI正式发布GPT-4。考虑到竞争格局和大型模型的安全影响,OpenAI并未披露模型大小、硬件、训练计算、数据集构建、训练方法等细节。经过试用与研究,我们认为GPT-4相比GPT-3.5有以下升级:1)多模态能力:支持文本和图像输入(目前图像输入尚未开放);2)推理能力:在律师考试、GRE Quantitative、LSAT等测试中的表现均优于GPT-3.5;3)同时推出便于落地的工具:推出预测扩展性的深度学习堆栈以及Evals评估框架,使下游厂商能够以较小的成本试用,然后选择最合适的大模型。此外,我们注意到OpenAI继AGI路线图强调AI公平性与可控性之后,本次推出GPT-4时,强调其在大模型安全可控上做出的努力。 多模态能力:有望重塑软件和硬件交互,想象空间巨大 相比GPT-3.5仅支持文字/代码的输入输出,GPT-4支持输入图像并且能够真正理解(输入图像还处于内测中,尚未开放):例如,发布会上演示了输入手绘网页草稿,GPT-4生成网页代码的功能。我们认为多模态能力首先有望重塑从浏览器到文档智能等的软件交互:OpenAI展示了输入有图有文字的物理题,GPT-4能够理解文图并回答问题。真正的图像理解能力如果嵌入浏览器、文档智能工具中,能够进一步解放生产力。在未来,多模态能力还有望重塑从手机、PC到智能家居的硬件交互领域:例如,谷歌23年3月发布的PaLM-E已经支持图文多模态输入,指导机器人完成任务的功能。 GPT-4对复杂任务理解更强,推理能力提升显著 GPT-4理解复杂任务的能力相比GPT-3.5有所提升, 因此遵循用户意图的能力更强:在盲测中,由GPT-4生成的回答在70.2%的情况下更受用户欢迎。GPT-4在一系列专业和学术考试中取得了人类水平的表现:在GRE语文考试达到前1%,在律师考试达到前10%,在GRE数学达到前20%水平,相比GPT-3.5进步明显,推理能力提升显著。我们认为GPT-4显示出人工智能在许多复杂任务中已经能够达到人类水平,人工智能用例将大大拓展,这是通往AGI(通用人工智能)的又一次跃迁。 “大”并非全部,大模型降低使用门槛、提高落地效果更加重要 由于大模型的规模化效应,增加模型参数量、数据量有助于提升模型表现。过去数年中,行业推出大模型时也往往标榜模型规模之大。然而我们看到从2022年起,行业不再简单追求更“大”的模型,便于下游落地的重要性日益提升。本次GPT-4推出了预测扩展性的深度学习堆栈,使用千分之一至万分之一的算力就能够可靠地预测GPT-4在下游垂直领域使用的性能。下游厂商可以先以较小的成本广泛试用,选择最合适的大模型。此外,OpenAI开源了Evals评估框架,便于用户选择模型。我们认为,行业已经逐渐走出单纯强调模型规模的时代,降低使用门槛、提高实际落地效果更加重要。 GPT-4更加安全,AI安全性与技术发展同等重要 OpenAI在今年2月发布AGI计划,强调大模型的可控性与公平性。本次发布GPT-4,OpenAI表示花了6个月的时间使其更加安全并与人类价值观一致,引入了包括ChatGPT用户提交的反馈等等人类反馈,以改善GPT-4的行为。相比GPT-3.5,GPT-4对禁止内容作出响应的可能性下降82%,做出事实性回应的可能性高40%。但是,OpenAI仍然提示GPT-4在偏见、虚假信息、隐私等方面的风险。我们认为AI的安全性与技术发展同样重要。 风险提示:AI及技术落地不及预期;本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。 正文 多模态模型:理解图像输入+语言能力提升显著 GPT-4理解图像输入,多模态能力未来想象空间巨大 相比GPT-3.5仅支持文字/代码的输入输出,GPT-4能够支持图像输入,并进行识别、推理和分析(输入图像还处于内测中,尚未开放)。根据OpenAI官网给出的范例,GPT-4能够识别图中的食材,并分析用这些食材能够做出哪些菜品。发布会上演示了输入手绘网页草稿,GPT-4生成网页代码的功能。 我们认为多模态能力首先有望重塑从浏览器到文档智能等的软件交互,未来还有望重塑从手机、PC、智能手表到智能家居的硬件交互。软件交互领域:OpenAI展示了输入有图有文字的物理题,GPT-4能够理解文图并回答问题;输入图文并茂的论文,GPT-4能归纳理解并解释图表含义。真正的图像理解能力如果嵌入浏览器、文档智能工具中,能够进一步解放生产力。硬件交互领域:例如,谷歌在2023年3月发布的PaLM-E已经支持图文多模态输入,指导机器人完成任务的功能。 语言能力相比GPT-3.5提升显著 相比ChatGPT, GPT-4文字输入限制提升至2.5万字,可用于长篇内容创作、长时间对话以及文档搜索和分析等应用场景。在处理简短对话时,GPT-4和GPT-3.5的区别并不显著,但当任务的复杂度达到足够的阈值时,GPT-4能够展示出更可靠的性能。 研发团队在机器学习传统基准测试上(包括MMLU、HellaSwag等)比较了GPT-4和GPT-3.5、SOTA等模型的性能,结果显示GPT-4在这些基准测试上的表现大大优于现有的大型语言模型,并且在大多数测试中超越了目前最先进的SOTA模型。 MMLU基准由涵盖人文、STEM和社会科学等知识领域的多选题组成,用于判断大规模多任务语言理解能力。OpenAI研发团队将GPT-4及其他模型在各种语言翻译的MMLU测试中进行比较,结果表明GPT-4在包括拉脱维亚语、威尔士语等多种小众语言上的表现均优于GPT-3.5、Chinchilla、PaLM等语言模型的英语表现。 相比GPT-3.5,GPT-4在常识推理中表现更佳 GPT-4在测试中的表现超越GPT-3.5 研发团队比较了GPT-4和GPT-3.5在律师考试、GRE Quantitative、LSAT等测试中的表现,结果表明GPT-4的得分基本全部高于GPT-3.5。在律师资格考试(Uniform Bar Exam)中,GPT-4的分数在应试者的前10%左右,远高于GPT-3.5的倒数10%左右。 GPT-4具备更广泛的常识,能够理解表情包中的逻辑 GPT-4被问到图9的表情包为什么可笑,其回答为“这张图片的幽默来自于将一个大而过时的VGA连接器插入到一个小而现代化的智能手机充电口的荒谬”。而对于图10的表情包,GPT-4回答为“这是将两个不相关的事物组合在一起的笑话:来自太空的地球照片和鸡块”。我们认为理解表情包表明GPT-4能够在一定程度上读懂隐喻、抽象和类比,表明其具备更广泛的常识。长期来看,具备常识是实现通用智能的重要一环。 “大”并非全部,大模型降低使用门槛、提高落地效果更加重要 由于大模型的规模化效应(scaling law),增加模型参数量、数据量有助于提升模型表现。过去数年中,行业推出大模型时也往往标榜模型规模之大。然而我们看到从2022年起,行业不再简单追求更“大”的模型。本次GPT-4并未在论文中提供参数量、数据量等信息。近期Meta发布的LLaMA虽然参数量相对较小,但是LLaMA-13B在多数基准测试下超越GPT-3(175B),LLaMA-65B与目前最好的LLM中的Chinchilla-70B和PaLM-540B旗鼓相当,显示出提升数据量对模型效果的提升作用。我们认为,行业已经逐渐走出单纯强调模型规模的时代,降低使用门槛、提高实际落地效果更加重要。 本次GPT-4发布的同时,OpenAI同时推出便于落地的工具:1)预测扩展性的深度学习堆栈,使用千分之一至万分之一的算力就能够可靠地预测GPT-4在下游垂直领域使用的性能。下游厂商可以先以较小的成本广泛试用,选择最合适的大模型;2)开源了Evals评估框架,便于用户选择模型。 GPT-4更加安全,AI安全性与技术发展同等重要 OpenAI在今年2月发布AGI计划,强调大模型的可控性与公平性。本次发布GPT-4,OpenAI表示花了6个月的时间使其更加安全并与人类价值观一致,引入了包括ChatGPT用户提交的反馈等等人类反馈,以改善GPT-4的行为。相比GPT-3.5,GPT-4对禁止内容作出响应的可能性下降82%,做出事实性回应的可能性高40%。但是,OpenAI仍然提示GPT-4在偏见、虚假信息、隐私等方面的风险。我们认为AI的安全性与技术发展同样重要。 GPT-4开始构建生态圈,持续关注商业模式创新 GPT-4已经与各个领域的软件开展合作。Be My Eyes是一款帮助全世界的盲人以及低视力人群的产品,通过GPT-4的视觉输入功能,Be My Eyes能够大幅度提高Virtual Volunteer对图片的理解程度。语言学习软件Duolingo推出GPT-4 驱动的Duolingo Max,能够辅助用户解释答案对错,以及陪同用户进行角色扮演式地练习,用户能够以订阅的形式使用该功能。我们认为GPT-4将以生产力工具为起点,大范围赋能软件,提升AI工具在C端渗透率。 风险提示: 1)AI技术落地不及预期。虽然 AI技术加速发展,但由于成本、落地效果等限制,相关技术落地节奏可能不及我们预期。 2)本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。 相关研报 研报:《AI:GPT-4有什么不同》2023年3月15日 黄乐平 S0570521050001 | AUZ066 胡宇舟 S0570121040041 | BOB674 权鹤阳 S0570122070045 关注我们 华泰证券研究所国内站(研究Portal) https://inst.htsc.com/research 访问权限:国内机构客户 华泰证券研究所海外站 https://intl.inst.htsc.com/mainland 访问权限:美国及香港金控机构客户 添加权限请联系您的华泰对口客户经理 免责声明 ▲向下滑动阅览 本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。 本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。