【华泰科技】从英伟达GTC看AI工厂的投资机会
(以下内容从华泰证券《》研报附件原文摘录)
如果您希望第一时间收到推送,别忘了加“星标”! 英伟达美国时间3.21开始召开年度开发者大会(GTC)。在会上CEO黄仁勋再次强调ChatGPT等生成式AI的出现,会改变千行百业,AI正迎来“iPhone”时刻。公司展示了从芯片、服务器、大模型到云服务在内的完整的AI工厂解决方案,并希望能够成为AI时代的台积电。 核心观点 AI的“iPhone”时刻来临,算力基础设施板块充分受益 英伟达美国时间3.21开始召开年度开发者大会(GTC)。在会上CEO黄仁勋再次强调ChatGPT等生成式AI的出现,会改变千行百业,AI正迎来“iPhone”时刻。公司展示了从芯片、服务器、大模型到云服务在内的完整的AI工厂解决方案,并希望能够成为AI时代的台积电。我们认为,1)大模型将是科技巨头之间的竞争,这个竞争会利好芯片送水人,2)芯片和数据成为制约发展的关键因素。关注1)先进封装及计算芯片在内的半导体产业链,2)服务器、PCB、光模块光纤在内数据中心产业链,以及3)相关公司在垂直行业布局。 芯片:新版H100提高训练速度10倍,国内在技术上仍有较大提升空间 目前,主流的AI训练一般采用英伟达的A100或H100芯片,这次大会上,公司推出针对大模型优化过的新训练芯片H100 NVL,和过去的A100相比,训练速度提高10倍,成本降低一个数量级。目前,AI推理上,一般采用2018年发布的T4芯片,这次公司发布出面向视频生成和图像生成的新推理芯片L4和L40,其中L40推理性能是T4的10倍。受美国出口管制限制,中国目前只能采购实测性能比A100低1/3的A800,因此训练同一个体量的模型,中国在成本及速度上存在10倍以上的差距。目前国内AI芯片厂商在推理芯片已有一定市占率,但受CUDA等软件影响,训练芯片上差距仍较大。 从GPU到AI工厂,AI计算会为整个服务器产业链带来增长 这次会上,英伟达重点展示了如何从单颗GPU芯片H100,通过NVLINK Switch形成一颗巨型GPU,然后通过Quantum InfiniBand技术,搭建有上百张GPU的DGX服务器,及把多台DGX联通形成一台AI超级计算机的全过程。我们看到整个系统的搭建过程,会带动包括服务器整机,PCB、光模块、光纤光缆、电源在内的整个服务器产业链的性能升级。 从云计算到大模型服务,关注垂直行业的发展机会 此次会上,英伟达还宣布推出每实例每月36,999美元起的AI计算服务 NVIDIA DGX Cloud,和新的Al Foundations服务(包括语言大模型Nemo、视觉大模型Picasso和生物大模型BioNemo在内的模型研发服务),定位为超算云服务+模型代工厂。公司强调未来每家公司都会成为AI工厂,企业专有数据价值量高,AI云服务帮助企业以专有数据创建专有模型。目前中国大模型应用的发展还在起步阶段,参考上一轮人工智能周期,我们认为对垂直行业有深刻理解,有软硬件整合能力的企业更容易享受到AI红利。 风险提示:AI及技术落地不及预期;本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。 正文 从GTC2023看英伟达AI算力基础设施 英伟达GTC2023中,为了满足AI市场的需求,英伟达不仅发布了L4 Tensor Core GPU、L40 GPU、H100 NVL GPU和Grace Hopper等超级芯片,还进一步推出NVIDIA DGX超级计算机,成为大语言模型实现突破背后的引擎。英伟达在GTC2023中表示,《财富》100强企业中有一半安装了DGX AI超级计算机,DGX已成为AI领域的必备工具。 英伟达DGX——大语言模型背后的引擎 根据GTC2023,DGX配有8个H100 GPU模组,H100配有Transformer引擎,旨在支持类似ChatGPT的大模型。这8个H100模组通过NVLINK Switch彼此相连,以实现全面无阻塞通信。8个H100协同工作,形成一个巨型GPU。通过400 Gbps超低延迟的NVIDIA Quantum InfiniBand进行网络内计算,将成千上万个DGX节点连接成一台AI超级计算机,并不断扩展应用范围,成为全球客户构建AI基础设施的蓝图。 除了NVIDIA DGX超级计算机以外,英伟达还宣布推出NVIDIA DGX Cloud和NVIDIA AI Foundations。 1)NVIDIA DGX Cloud。通过与Microsoft Azure、Google GCP和Oracle OCl合作,通过一个浏览器就可以将NVIDIA DGX AI超级计算机即时地接入每家公司。DGX Cloud经过优化,可运行NVIDIA Al Enterprise,这是一款全球领先的加速库套件,用于AI端到端开发和部署。DGX Cloud将NVIDIA的生态系统引入到了云服务提供商,NVIDIA触及的范围得以扩展。 2)NVIDIA AI Foundations。这是一项云服务,面向需要构建、优化和运营定制LLM(大型语言模型)和生成式AI,客户使用其专有数据进行训练,用于处理特定领域的任务,包括语言、视觉和生物学模型制作服务。NVIDIA NeMo用于构建定制的语言/文本转文本生成式模型,Picasso是一项视觉语言模型制作服务,BioNeMo提供用于药物研发的生成式AI模型。 我们认为,ChatGPT等应用引发对AI算力的需求,加速计算和生成式AI 推理将带动训练/推理芯片需求的爆发。 AI计算如何推动训练芯片需求 NVIDIA和AMD为GPGPU领域代表性厂商,二者占据市场绝大部分份额。其中NVIDIA2022年数据中心业务收入突破150亿美元,2015-2022年复合增速达71.86%;AMD经过我们推算GPGPU营收约为16亿美元(数据中心营收剔除CPU及FPGA部分)。 目前AI训练主要采用:1)英伟达在AI训练GPGPU:包括V100/A100/H100(22年下半年开始量产出货)以及美国限制出口后英伟达推出的裁剪版A800。2)AMD推出的AI训练芯片包括MI 250/250X/300。 下图是一个典型的AI训练芯片的架构,主要包括: · CUDA:CUDA 是一种将 GPU作为数据并行计算设备的软硬件体系,不需要借助图形学 API,而是采用了比较容易掌握的类 C语言进行开发,开发人员能够利用熟悉的C语言比较平稳地从CPU 过渡到 GPU 编程。与以往的GPU相比,支持 CUDA的GPU 在架构上有了显著的改进:1)采用了统一处理架构,可以更加有效地利用过去分布在顶点着色器和像素着色器的计算资源;2)引入了片内共享存储器。两项改进使得 CUDA架构更加适用于通用计算,加上2008年后苹果、AMD、和IBM推出的OpenCL开源标准,GPGPU在通用计算领域迅速发展。 · 张量和矩阵核心:GPGPU的大量硬件运算单元和高吞吐高带宽的存储设计能够提供强大的计算能力,同时针对矩阵运算和卷积,在软件层面提供了灵活完善的加速库支持,使得 GPGPU 能够充分地利用其硬件计算资源和存储资源,实现高吞吐的卷积计算。为了进一步提升矩阵运算的性能,近年来NVIDIA 和AMD的GPGPU 增加了全新的张量和矩阵核心大幅加速矩阵运算,而且还支持多种精度(训练用途加速器多采用单精度浮点数FP32格式存储),使得 GPGPU 能够适应深度神经网络不同场景、不同应用的精度需求。 · HBM存储器:新一代DRAM解决方案,突破内存容量与带宽瓶颈。HBM是一款新型的CPU/GPU 内存芯片,通过将多颗DDR颗粒利用3D堆叠后和CPU/GPU封装在一起,以实现大容量、高位宽的DDR组合阵列。通过增加带宽,扩展内存容量,让更大的模型,更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟。 · 控制单元:CPU包括运算逻辑部件、寄存器部件和控制部件等,是计算机的运算和控制核心,注重通用性来处理各种不同的数据类型,由于CPU结构中大部分晶体管用于构建控制电路和存储单元,只有少部分用来完成实际运算工作,所以CPU在大规模并行计算能力上极为受限。 在单芯片计算训练性能不断提升的基础上,服务器整体能效的提升同样受到关注。在A100/H100训练芯片之上,英伟达在此次GTC大会上推出DGX H100服务器。DGX配有8个H100 GPU模组, 配有Transfofmer引擎以支持处理类似ChatGPT 的生成式训练模型,FP8精度在大型语言模型相较上一代A00的训练和推理能力分别提升9/30倍。8个H100模组通过NVLINK Switch相连,确保GPU之间的合作和通信。目前DGX 100已全面投产,后期有望面向全球企业。 训练大模型到底需要多少硬件: 据OpenAI团队发表于2020年的论文《Language Models are Few-Shot Learners》,训练一次1746亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day(即假设每秒计算一千万亿次,需要计算3640天)。考虑到ChatGPT训练在GPT-3.5模型基础上增加了参数量和训练样本量,其训练阶段的算力需求超过3640 PFlop/s-day。 观点#1: 10,000张A100:根据Lambda数据,微软花费数亿美元帮助OpenAI组装了一台AI超级计算机,以帮助开发ChatGPT。这台超算拥有超过285,000个CPU内核,使用了数万个英伟达图形芯片A100,每个GPU服务器的网络连接速度为每秒400GB,使得OpenAI能够训练越来越强大的AI模型。微软表示,与世界超级计算机500强中的其他机器相比,它排在前五名。 观点#2:1024张A100:根据《Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM》的实际训练数据,1750亿参数、300B tokens数据集的GPT-3模型,在1024块英伟达A100上,当batch size=1536时,每GPU实际算力能够达到140 teraFLOP/s,训练时间为34天。 华泰预测:需要近2000张A100。我们也对一次训练Chatgpt需要的成本和GPU数量进行了测算,根据公式所需硬件数等于训练所需浮点运算次数(模型参数1750亿*训练集大小300亿*每单词训练所需浮点数6次)/单位GPU单位时间有效浮点运算次数。我们假设模型训练30天,则对应需要1944张A100。如果按照DGX 8张GPU来算,约为243台Al服务器(8GPU+1CPU)。此外我们还粗略估算出一次训练成本大致需要187万美元。 中国AI训练芯片进展:仍与英伟达在性能和生态有一定差距。训练芯片需通过海量数据训练出复杂的神经网络模型,使其适应特定的功能,对性能和精度有较高的要求,并需具备一定的通用性。近年来, 国内厂商训练芯片产品硬件性能不断取得突破,但与市场主流英伟达 A100 产品仍存在一定差距。以云邃T20产品为例,其32位单精度浮点性能达32 TFLOPS,高于A100的19.5 TFLOPS,且在功耗上更具优势,但内存宽带不足A100的 1/3,在应对机器学习和深度学习的带宽需求上仍有差距。寒武纪去年年底推出思元590系列可能在部分模型上由于其ASIC专用性表现出更优异的性能,但仍需要后期适配和技术支持。 AI计算如何推动推理芯片需求 AI推理需要什么芯片:训练是计算密集型,模型需要大量的数据进行训练,通过反向传播优化参数,从而让模型达到某种目的。而推理过程更多在场景下,需要对训练的模型进行一定压缩、裁剪或做计算上的优化,以便能快速、高效的对未知数据进行操作。例如我们在视频监控中对人脸识别、电商运营中个性化推荐、电子支付中身份识别等都是常见的推理场景。通常来说我们采用“云端训练,端侧推理”模式,即将数据传到云侧进行训练模型,训练好的模型随后下放到端侧,端侧利用训练好的模型直接进行推理。 在推理芯片的选用方面,相较于训练更多关注模型大小而言,推理更依赖于任务本质,以此决定所需芯片种类。当需要大量内容/图像AI生成式时,需要GPU进行推理计算(如英伟达主流的T4芯片);而对于较简单的推理过程(语音识别等),CPU有时也会成为较好的推理引擎。 在本次GTC大会上,我们还看到英伟达为加速生成式AI开发及部署,在原有推理芯片上推出新的推理平台,主要包括: 1)适用于AI视频的L4:主要视频解码和转码、视频内容审核,以及视频通话功能,例如背景替换、重新打光、眼神交流,转录和实时翻译进行优化,一台 8-GPU L4 服务器将取代一百多台用于处理 AI 视频的双插槽 CPU 服务器,行业内 Google Cloud 正加速在 L4 上部署主要工作负载。 2)适用于Omiverse和图形渲染的L40:主要针对 Omniverse、图形渲染以及文本转图像和文本转视频等生成式 Al,性能是 NVIDIA推理 GPU T4的 10 倍。 3)适用于扩展LLM推理的H100 PCIE:H100 PCIE配备 94GB HBM3 显存,可以处理拥有 1750 亿参数的 GPT-3,同时还可支持商用PCIE 服务器扩展,与适用于 GPT-3 处理的 HGX A100 相比,一台搭载四对 H100 及双 GPU NVLINK 的标准服务器的速度要快 10倍。 4)适用于推荐系统和向量数据库的超级芯片Grace-Hopper:通过 900GB/秒的高速一致性芯片到芯片接口连接 Grace CPU 和 Hopper GPU,适合处理大型数据集,如适用于推荐系统和大型语言模型的 AI 数据库。 AI推理成本:推理阶段运营成本较高,根据场景而定。据SimilarWeb数据,2023年1月ChatGPT官网总访问量为6.16亿次;据《Fortune》杂志,每次用户与ChatGPT互动,产生的算力云服务成本约0.01美元。基于此,推算ChatGPT单月运营对应成本约616万美元。与训练阶段相比较而言,同样接近1个月的耗时,假设根据Lambda 测算3640 PFlop/s-day的训练算力需耗费466万美元,单位算力成本固定,ChatGPT运营阶段的推理过程所需算力基础设施将多于训练阶段。这里我们仅考虑一个提问回答场景,我们认为推理应用涉及较广,其对应的GPU需求超过万片,远大于训练模型所需GPU。 中国AI推理芯片进展:推理芯片则是利用神经网络模型进行推理预测,对峰值计算性能要求较低,则更加注重单位能耗算力、时延、成本等综合指标,我国厂商多选择先从推理端切入。寒武纪、海思以及燧原等国内厂商产品已具备与市场主流的 Tesla T4 正面竞争能力。以寒武纪思元 370 为例,其 INT8 运算性能达到 256 TOPS,高于 T4 的 130TOPS,且能效比和性价比均更优,已具备替代 T4 能力。 AI Foundations:“超算云服务+模型代工厂”,AI大模型领域的台积电 生成式AI将重塑几乎所有行业。英伟达在今年2月的4QFY23业绩会上表示,过去公司只生产实物,而未来每家公司都会成为AI工厂,以源源不断的数据更新自己的模型;企业内部专有数据价值量高,AI云服务能够帮助企业使用专有数据创建专有模型。本次GTC上,英伟达再次强调企业内部专有数据、专有模型的价值:一些专业领域的公司需要使用其专有数据来构建定制模型,需要制定使用规范并优化模型,以契合公司的安全、隐私要求。英伟达表示,行业需要一个类似台积电的代工厂,来构建自定义的大型语言模型。 英伟达在本次GTC推出NVIDIA Al Foundations,定位为“超算云服务+模型代工厂”,用于企业构建自定义语言模型和生成式Al。NVIDIA AI Foundations包括语言、视觉和生物学模型构建服务,分别名为Nemo、Picasso和BioNemo,使用企业专有数据进行训练,用于处理特定领域的任务。我们认为超算云服务+模型代工厂的商业模式是英伟达作为芯片送水人在大模型时代的商业模式自然延伸。 语言模型服务Nemo NVIDIA NeMo用于构建定制的语言文本转文本生成式模型,基于5个基础模型(图11),其特点在于: 1) 企业可以使用专业数据进行参数调优,以教授其专业技能,比如汇总财务文档,创建特定品牌的内容以及以个性化的写作风格撰写电子邮件。同时,企业可以将模型连接到专有知识库,可确保响应是准确的、最新的,并为其业务所引用。 2) 企业可以添加逻辑以及监控输入、输出、毒性和偏差阈值来确保模型安全性。 3) 模型投入使用后可以根据用户交互通过强化学习不断改进。 视觉模型服务Picasso NVIDIA Picasso是一项视觉语言模型制作服务,用于构建和部署生成式AI赋能的图像、视频和3D应用,面向希望使用许可内容或专有内容来训练自定义模型的客户。Picasso服务的基础模型是Edity,企业可以使用专有数据加以训练。此外,由Picasso生成的素材可以导入编辑工具或 NVIDIA Omniverse,以构建逼真的虚拟世界、元宇宙应用和数字孪生仿真。 Adobe和英伟达将共同开发生成性人工智能模型,重点关注负责任的内容归属和出处。这些模型将通过Adobe Cloud旗舰产品(如Photoshop、Premiere Pro和After Effects)以及Picasso共同开发并推向市场。 生物模型服务BioNemo NVIDIA BioNeMo服务将生成式AI应用于药物发现。通过NVIDIA云API,研究人员可以快速定制和大规模部署特定领域、最先进的生成和预测生物分子AI模型,以快速生成蛋白质和生物分子的结构和功能,加快新药研发。BioNemo的具体功能包括蛋白质结构预测、分子表示、分子生成和分子对接。AlphaFold、 ESMFold 和 Open Fold等用于三维蛋白质结构预测,ProtGPT 用子蛋白质生成,ESM1和 ESM2用于蛋白质特性预测,MegaMolBART 和 MoFlow用于分子生成,DiffDock则用于分子对接。 风险提示 1)AI技术落地不及预期。虽然 AI技术加速发展,但由于成本、落地效果等限制,相关技术落地节奏可能不及我们预期。 2)本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。 相关研报 研报:《从英伟达GTC看AI工厂的投资机会》2023年3月23日 黄乐平 S0570521050001 | AUZ066 余 熠 S0570520090002 | BNC535 张皓怡 S0570522020001 胡宇舟 S0570121040041 | BOB674 王心怡 S0570121070166 | BTB527 陈 钰 S0570121120092 权鹤阳 S0570122070045 关注我们 华泰证券研究所国内站(研究Portal) https://inst.htsc.com/research 访问权限:国内机构客户 华泰证券研究所海外站 https://intl.inst.htsc.com/mainland 访问权限:美国及香港金控机构客户 添加权限请联系您的华泰对口客户经理 免责声明 ▲向下滑动阅览 本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。 本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。
如果您希望第一时间收到推送,别忘了加“星标”! 英伟达美国时间3.21开始召开年度开发者大会(GTC)。在会上CEO黄仁勋再次强调ChatGPT等生成式AI的出现,会改变千行百业,AI正迎来“iPhone”时刻。公司展示了从芯片、服务器、大模型到云服务在内的完整的AI工厂解决方案,并希望能够成为AI时代的台积电。 核心观点 AI的“iPhone”时刻来临,算力基础设施板块充分受益 英伟达美国时间3.21开始召开年度开发者大会(GTC)。在会上CEO黄仁勋再次强调ChatGPT等生成式AI的出现,会改变千行百业,AI正迎来“iPhone”时刻。公司展示了从芯片、服务器、大模型到云服务在内的完整的AI工厂解决方案,并希望能够成为AI时代的台积电。我们认为,1)大模型将是科技巨头之间的竞争,这个竞争会利好芯片送水人,2)芯片和数据成为制约发展的关键因素。关注1)先进封装及计算芯片在内的半导体产业链,2)服务器、PCB、光模块光纤在内数据中心产业链,以及3)相关公司在垂直行业布局。 芯片:新版H100提高训练速度10倍,国内在技术上仍有较大提升空间 目前,主流的AI训练一般采用英伟达的A100或H100芯片,这次大会上,公司推出针对大模型优化过的新训练芯片H100 NVL,和过去的A100相比,训练速度提高10倍,成本降低一个数量级。目前,AI推理上,一般采用2018年发布的T4芯片,这次公司发布出面向视频生成和图像生成的新推理芯片L4和L40,其中L40推理性能是T4的10倍。受美国出口管制限制,中国目前只能采购实测性能比A100低1/3的A800,因此训练同一个体量的模型,中国在成本及速度上存在10倍以上的差距。目前国内AI芯片厂商在推理芯片已有一定市占率,但受CUDA等软件影响,训练芯片上差距仍较大。 从GPU到AI工厂,AI计算会为整个服务器产业链带来增长 这次会上,英伟达重点展示了如何从单颗GPU芯片H100,通过NVLINK Switch形成一颗巨型GPU,然后通过Quantum InfiniBand技术,搭建有上百张GPU的DGX服务器,及把多台DGX联通形成一台AI超级计算机的全过程。我们看到整个系统的搭建过程,会带动包括服务器整机,PCB、光模块、光纤光缆、电源在内的整个服务器产业链的性能升级。 从云计算到大模型服务,关注垂直行业的发展机会 此次会上,英伟达还宣布推出每实例每月36,999美元起的AI计算服务 NVIDIA DGX Cloud,和新的Al Foundations服务(包括语言大模型Nemo、视觉大模型Picasso和生物大模型BioNemo在内的模型研发服务),定位为超算云服务+模型代工厂。公司强调未来每家公司都会成为AI工厂,企业专有数据价值量高,AI云服务帮助企业以专有数据创建专有模型。目前中国大模型应用的发展还在起步阶段,参考上一轮人工智能周期,我们认为对垂直行业有深刻理解,有软硬件整合能力的企业更容易享受到AI红利。 风险提示:AI及技术落地不及预期;本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。 正文 从GTC2023看英伟达AI算力基础设施 英伟达GTC2023中,为了满足AI市场的需求,英伟达不仅发布了L4 Tensor Core GPU、L40 GPU、H100 NVL GPU和Grace Hopper等超级芯片,还进一步推出NVIDIA DGX超级计算机,成为大语言模型实现突破背后的引擎。英伟达在GTC2023中表示,《财富》100强企业中有一半安装了DGX AI超级计算机,DGX已成为AI领域的必备工具。 英伟达DGX——大语言模型背后的引擎 根据GTC2023,DGX配有8个H100 GPU模组,H100配有Transformer引擎,旨在支持类似ChatGPT的大模型。这8个H100模组通过NVLINK Switch彼此相连,以实现全面无阻塞通信。8个H100协同工作,形成一个巨型GPU。通过400 Gbps超低延迟的NVIDIA Quantum InfiniBand进行网络内计算,将成千上万个DGX节点连接成一台AI超级计算机,并不断扩展应用范围,成为全球客户构建AI基础设施的蓝图。 除了NVIDIA DGX超级计算机以外,英伟达还宣布推出NVIDIA DGX Cloud和NVIDIA AI Foundations。 1)NVIDIA DGX Cloud。通过与Microsoft Azure、Google GCP和Oracle OCl合作,通过一个浏览器就可以将NVIDIA DGX AI超级计算机即时地接入每家公司。DGX Cloud经过优化,可运行NVIDIA Al Enterprise,这是一款全球领先的加速库套件,用于AI端到端开发和部署。DGX Cloud将NVIDIA的生态系统引入到了云服务提供商,NVIDIA触及的范围得以扩展。 2)NVIDIA AI Foundations。这是一项云服务,面向需要构建、优化和运营定制LLM(大型语言模型)和生成式AI,客户使用其专有数据进行训练,用于处理特定领域的任务,包括语言、视觉和生物学模型制作服务。NVIDIA NeMo用于构建定制的语言/文本转文本生成式模型,Picasso是一项视觉语言模型制作服务,BioNeMo提供用于药物研发的生成式AI模型。 我们认为,ChatGPT等应用引发对AI算力的需求,加速计算和生成式AI 推理将带动训练/推理芯片需求的爆发。 AI计算如何推动训练芯片需求 NVIDIA和AMD为GPGPU领域代表性厂商,二者占据市场绝大部分份额。其中NVIDIA2022年数据中心业务收入突破150亿美元,2015-2022年复合增速达71.86%;AMD经过我们推算GPGPU营收约为16亿美元(数据中心营收剔除CPU及FPGA部分)。 目前AI训练主要采用:1)英伟达在AI训练GPGPU:包括V100/A100/H100(22年下半年开始量产出货)以及美国限制出口后英伟达推出的裁剪版A800。2)AMD推出的AI训练芯片包括MI 250/250X/300。 下图是一个典型的AI训练芯片的架构,主要包括: · CUDA:CUDA 是一种将 GPU作为数据并行计算设备的软硬件体系,不需要借助图形学 API,而是采用了比较容易掌握的类 C语言进行开发,开发人员能够利用熟悉的C语言比较平稳地从CPU 过渡到 GPU 编程。与以往的GPU相比,支持 CUDA的GPU 在架构上有了显著的改进:1)采用了统一处理架构,可以更加有效地利用过去分布在顶点着色器和像素着色器的计算资源;2)引入了片内共享存储器。两项改进使得 CUDA架构更加适用于通用计算,加上2008年后苹果、AMD、和IBM推出的OpenCL开源标准,GPGPU在通用计算领域迅速发展。 · 张量和矩阵核心:GPGPU的大量硬件运算单元和高吞吐高带宽的存储设计能够提供强大的计算能力,同时针对矩阵运算和卷积,在软件层面提供了灵活完善的加速库支持,使得 GPGPU 能够充分地利用其硬件计算资源和存储资源,实现高吞吐的卷积计算。为了进一步提升矩阵运算的性能,近年来NVIDIA 和AMD的GPGPU 增加了全新的张量和矩阵核心大幅加速矩阵运算,而且还支持多种精度(训练用途加速器多采用单精度浮点数FP32格式存储),使得 GPGPU 能够适应深度神经网络不同场景、不同应用的精度需求。 · HBM存储器:新一代DRAM解决方案,突破内存容量与带宽瓶颈。HBM是一款新型的CPU/GPU 内存芯片,通过将多颗DDR颗粒利用3D堆叠后和CPU/GPU封装在一起,以实现大容量、高位宽的DDR组合阵列。通过增加带宽,扩展内存容量,让更大的模型,更多的参数留在离核心计算更近的地方,从而减少内存和存储解决方案带来的延迟。 · 控制单元:CPU包括运算逻辑部件、寄存器部件和控制部件等,是计算机的运算和控制核心,注重通用性来处理各种不同的数据类型,由于CPU结构中大部分晶体管用于构建控制电路和存储单元,只有少部分用来完成实际运算工作,所以CPU在大规模并行计算能力上极为受限。 在单芯片计算训练性能不断提升的基础上,服务器整体能效的提升同样受到关注。在A100/H100训练芯片之上,英伟达在此次GTC大会上推出DGX H100服务器。DGX配有8个H100 GPU模组, 配有Transfofmer引擎以支持处理类似ChatGPT 的生成式训练模型,FP8精度在大型语言模型相较上一代A00的训练和推理能力分别提升9/30倍。8个H100模组通过NVLINK Switch相连,确保GPU之间的合作和通信。目前DGX 100已全面投产,后期有望面向全球企业。 训练大模型到底需要多少硬件: 据OpenAI团队发表于2020年的论文《Language Models are Few-Shot Learners》,训练一次1746亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day(即假设每秒计算一千万亿次,需要计算3640天)。考虑到ChatGPT训练在GPT-3.5模型基础上增加了参数量和训练样本量,其训练阶段的算力需求超过3640 PFlop/s-day。 观点#1: 10,000张A100:根据Lambda数据,微软花费数亿美元帮助OpenAI组装了一台AI超级计算机,以帮助开发ChatGPT。这台超算拥有超过285,000个CPU内核,使用了数万个英伟达图形芯片A100,每个GPU服务器的网络连接速度为每秒400GB,使得OpenAI能够训练越来越强大的AI模型。微软表示,与世界超级计算机500强中的其他机器相比,它排在前五名。 观点#2:1024张A100:根据《Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM》的实际训练数据,1750亿参数、300B tokens数据集的GPT-3模型,在1024块英伟达A100上,当batch size=1536时,每GPU实际算力能够达到140 teraFLOP/s,训练时间为34天。 华泰预测:需要近2000张A100。我们也对一次训练Chatgpt需要的成本和GPU数量进行了测算,根据公式所需硬件数等于训练所需浮点运算次数(模型参数1750亿*训练集大小300亿*每单词训练所需浮点数6次)/单位GPU单位时间有效浮点运算次数。我们假设模型训练30天,则对应需要1944张A100。如果按照DGX 8张GPU来算,约为243台Al服务器(8GPU+1CPU)。此外我们还粗略估算出一次训练成本大致需要187万美元。 中国AI训练芯片进展:仍与英伟达在性能和生态有一定差距。训练芯片需通过海量数据训练出复杂的神经网络模型,使其适应特定的功能,对性能和精度有较高的要求,并需具备一定的通用性。近年来, 国内厂商训练芯片产品硬件性能不断取得突破,但与市场主流英伟达 A100 产品仍存在一定差距。以云邃T20产品为例,其32位单精度浮点性能达32 TFLOPS,高于A100的19.5 TFLOPS,且在功耗上更具优势,但内存宽带不足A100的 1/3,在应对机器学习和深度学习的带宽需求上仍有差距。寒武纪去年年底推出思元590系列可能在部分模型上由于其ASIC专用性表现出更优异的性能,但仍需要后期适配和技术支持。 AI计算如何推动推理芯片需求 AI推理需要什么芯片:训练是计算密集型,模型需要大量的数据进行训练,通过反向传播优化参数,从而让模型达到某种目的。而推理过程更多在场景下,需要对训练的模型进行一定压缩、裁剪或做计算上的优化,以便能快速、高效的对未知数据进行操作。例如我们在视频监控中对人脸识别、电商运营中个性化推荐、电子支付中身份识别等都是常见的推理场景。通常来说我们采用“云端训练,端侧推理”模式,即将数据传到云侧进行训练模型,训练好的模型随后下放到端侧,端侧利用训练好的模型直接进行推理。 在推理芯片的选用方面,相较于训练更多关注模型大小而言,推理更依赖于任务本质,以此决定所需芯片种类。当需要大量内容/图像AI生成式时,需要GPU进行推理计算(如英伟达主流的T4芯片);而对于较简单的推理过程(语音识别等),CPU有时也会成为较好的推理引擎。 在本次GTC大会上,我们还看到英伟达为加速生成式AI开发及部署,在原有推理芯片上推出新的推理平台,主要包括: 1)适用于AI视频的L4:主要视频解码和转码、视频内容审核,以及视频通话功能,例如背景替换、重新打光、眼神交流,转录和实时翻译进行优化,一台 8-GPU L4 服务器将取代一百多台用于处理 AI 视频的双插槽 CPU 服务器,行业内 Google Cloud 正加速在 L4 上部署主要工作负载。 2)适用于Omiverse和图形渲染的L40:主要针对 Omniverse、图形渲染以及文本转图像和文本转视频等生成式 Al,性能是 NVIDIA推理 GPU T4的 10 倍。 3)适用于扩展LLM推理的H100 PCIE:H100 PCIE配备 94GB HBM3 显存,可以处理拥有 1750 亿参数的 GPT-3,同时还可支持商用PCIE 服务器扩展,与适用于 GPT-3 处理的 HGX A100 相比,一台搭载四对 H100 及双 GPU NVLINK 的标准服务器的速度要快 10倍。 4)适用于推荐系统和向量数据库的超级芯片Grace-Hopper:通过 900GB/秒的高速一致性芯片到芯片接口连接 Grace CPU 和 Hopper GPU,适合处理大型数据集,如适用于推荐系统和大型语言模型的 AI 数据库。 AI推理成本:推理阶段运营成本较高,根据场景而定。据SimilarWeb数据,2023年1月ChatGPT官网总访问量为6.16亿次;据《Fortune》杂志,每次用户与ChatGPT互动,产生的算力云服务成本约0.01美元。基于此,推算ChatGPT单月运营对应成本约616万美元。与训练阶段相比较而言,同样接近1个月的耗时,假设根据Lambda 测算3640 PFlop/s-day的训练算力需耗费466万美元,单位算力成本固定,ChatGPT运营阶段的推理过程所需算力基础设施将多于训练阶段。这里我们仅考虑一个提问回答场景,我们认为推理应用涉及较广,其对应的GPU需求超过万片,远大于训练模型所需GPU。 中国AI推理芯片进展:推理芯片则是利用神经网络模型进行推理预测,对峰值计算性能要求较低,则更加注重单位能耗算力、时延、成本等综合指标,我国厂商多选择先从推理端切入。寒武纪、海思以及燧原等国内厂商产品已具备与市场主流的 Tesla T4 正面竞争能力。以寒武纪思元 370 为例,其 INT8 运算性能达到 256 TOPS,高于 T4 的 130TOPS,且能效比和性价比均更优,已具备替代 T4 能力。 AI Foundations:“超算云服务+模型代工厂”,AI大模型领域的台积电 生成式AI将重塑几乎所有行业。英伟达在今年2月的4QFY23业绩会上表示,过去公司只生产实物,而未来每家公司都会成为AI工厂,以源源不断的数据更新自己的模型;企业内部专有数据价值量高,AI云服务能够帮助企业使用专有数据创建专有模型。本次GTC上,英伟达再次强调企业内部专有数据、专有模型的价值:一些专业领域的公司需要使用其专有数据来构建定制模型,需要制定使用规范并优化模型,以契合公司的安全、隐私要求。英伟达表示,行业需要一个类似台积电的代工厂,来构建自定义的大型语言模型。 英伟达在本次GTC推出NVIDIA Al Foundations,定位为“超算云服务+模型代工厂”,用于企业构建自定义语言模型和生成式Al。NVIDIA AI Foundations包括语言、视觉和生物学模型构建服务,分别名为Nemo、Picasso和BioNemo,使用企业专有数据进行训练,用于处理特定领域的任务。我们认为超算云服务+模型代工厂的商业模式是英伟达作为芯片送水人在大模型时代的商业模式自然延伸。 语言模型服务Nemo NVIDIA NeMo用于构建定制的语言文本转文本生成式模型,基于5个基础模型(图11),其特点在于: 1) 企业可以使用专业数据进行参数调优,以教授其专业技能,比如汇总财务文档,创建特定品牌的内容以及以个性化的写作风格撰写电子邮件。同时,企业可以将模型连接到专有知识库,可确保响应是准确的、最新的,并为其业务所引用。 2) 企业可以添加逻辑以及监控输入、输出、毒性和偏差阈值来确保模型安全性。 3) 模型投入使用后可以根据用户交互通过强化学习不断改进。 视觉模型服务Picasso NVIDIA Picasso是一项视觉语言模型制作服务,用于构建和部署生成式AI赋能的图像、视频和3D应用,面向希望使用许可内容或专有内容来训练自定义模型的客户。Picasso服务的基础模型是Edity,企业可以使用专有数据加以训练。此外,由Picasso生成的素材可以导入编辑工具或 NVIDIA Omniverse,以构建逼真的虚拟世界、元宇宙应用和数字孪生仿真。 Adobe和英伟达将共同开发生成性人工智能模型,重点关注负责任的内容归属和出处。这些模型将通过Adobe Cloud旗舰产品(如Photoshop、Premiere Pro和After Effects)以及Picasso共同开发并推向市场。 生物模型服务BioNemo NVIDIA BioNeMo服务将生成式AI应用于药物发现。通过NVIDIA云API,研究人员可以快速定制和大规模部署特定领域、最先进的生成和预测生物分子AI模型,以快速生成蛋白质和生物分子的结构和功能,加快新药研发。BioNemo的具体功能包括蛋白质结构预测、分子表示、分子生成和分子对接。AlphaFold、 ESMFold 和 Open Fold等用于三维蛋白质结构预测,ProtGPT 用子蛋白质生成,ESM1和 ESM2用于蛋白质特性预测,MegaMolBART 和 MoFlow用于分子生成,DiffDock则用于分子对接。 风险提示 1)AI技术落地不及预期。虽然 AI技术加速发展,但由于成本、落地效果等限制,相关技术落地节奏可能不及我们预期。 2)本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。 相关研报 研报:《从英伟达GTC看AI工厂的投资机会》2023年3月23日 黄乐平 S0570521050001 | AUZ066 余 熠 S0570520090002 | BNC535 张皓怡 S0570522020001 胡宇舟 S0570121040041 | BOB674 王心怡 S0570121070166 | BTB527 陈 钰 S0570121120092 权鹤阳 S0570122070045 关注我们 华泰证券研究所国内站(研究Portal) https://inst.htsc.com/research 访问权限:国内机构客户 华泰证券研究所海外站 https://intl.inst.htsc.com/mainland 访问权限:美国及香港金控机构客户 添加权限请联系您的华泰对口客户经理 免责声明 ▲向下滑动阅览 本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。 本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。