华泰 | 海外科技:AMD正式宣战,谁来为MI300站台?
(以下内容从华泰证券《华泰 | 海外科技:AMD正式宣战,谁来为MI300站台?》研报附件原文摘录)
AMD数据中心和人工智能技术首映式于加州时间2023年6月13日早上10点开始。主要发布产品为:云原生的Bergamo CPU、3D V-Cache的Genoa-X CPU及AI芯片Instinct MI300X GPU和MI300A APU。AMD CEO Lisa Su认为Al发展战略主要在三方面: 广泛的 CPU 和 GPU 产品组合、开放且经验证的软件平台以及深入的合作伙伴生态系统。AMD并未披露MI300系列的关键客户合作信息,发布会当天收盘下挫3.61%。但根据路透社6月14日独家报道,亚马逊高管Dave Brown表示AWS正考虑使用MI300。我们前序报告中提到,MI300 全方位追击英伟达Grace Hopper,但软件生态完善或成破局关键。 核心观点 MI300X & MI300A:与英伟达相比,AMD AI能力如何? AMD展现出的AI产品与我们几个前序报告中描述的大体一致,蓄势待发切入AI训练赛道。MI300A为CPU+GPU架构,对标英伟达GH200;而这次发布的MI300X为纯GPU,对标英伟达H100:1)单卡内存HBM3为192GB,领先英伟达H100 NVL双卡的188GB;2)共1530亿个晶体管,超过H100的800亿个;3)内存带宽5.2TB/s与H100的2-7.2TB/s相近。公司展示MI300X运行400亿参数的Falcon模型实时推理,此等参数规模的大语言模型为第一次在单片GPU上运行。AMD MI300系列将成为英伟达有力的竞争对手,另外,还需关注英特尔和其他AI芯片企业如Cerebras和SambaNova,但更重要的竞争对手或是云计算巨头自研芯片。 第四代 EPYC 服务器CPU重磅升级,制程和性能均超Intel 业界首款x86云原生Bergamo及采用3D V-Cache技术的Genoa-X正式推出。前者的峰值内核数达128(可提高多线程能力,并对标其他多核数的服务器产品如144核的Intel Sierra Forest),基于特别定制的Zen 4c微架构,在保持与Zen 4架构基本相同的功能集的同时将内核缩小35%,让数据中心CPU的性能推向新高;后者采用超过1GB的L3缓存和3D V-Cache技术,适用于缓存需求较高的技术计算。二者均为EPYC第四代和采用台积电 5nm 制程,对比Sapphire Rapids采用的Intel 7节点(10nm相当于台积电7nm),性能和制程尚处领先。此外,AMD也宣布与AWS、Oracle、Meta及微软在第四代EPYC的合作关系。 PyTorch与Hugging Face助力,ROCm生态圈奋起直追 PyTorch创始人在会上宣布PyTorch 2.0为ROCm 5版本提供支持。Hugging Face CEO也宣布将在AMD平台上优化数千个模型。此前我们在前序报告里多次对比英伟达CUDA和AMD ROCm生态圈:ROCm起步较晚,开发者数量与CUDA相差较大。ROCm虽能完全兼容CUDA,但亦只属权宜之计。AMD正积极拓展生态圈,包括支持Windows、在AI领域开拓更广泛的框架,如MIOpen和MIVisionX,以及支持更多的软件,包括TensorFlow、PyTorch等,与二者的合作将对ROCm生态圈产生关键助力。 AMD能否在AI领域突围英伟达? Lisa Su于5月31日的《福布斯》采访时强调 “放眼 5年将在 AMD 每一个产品中看到AI”,AI 是公司的战略首位。目前,算力高的英伟达占据AI训练端的领导地位,但随着AMD在AI芯片上逐步发力,或能开始撼动英伟达在行业里独占鳌头的地位。我们也认为云厂商应不希望AI芯片呈现一家独大的局面,MI300恰逢其时地出现,为市场提供了英伟达以外的选择。 风险提示:技术落地缓慢、中美局势可能升级、芯片需求不及预期。 正文 AI争霸战大幕正式开启,谁来为AMD MI300站台? AMD数据中心和人工智能技术首映式于加州时间2023年6月13日早上10时开始。本次发布的主要产品为:云原生的Bergamo CPU、面向技术计算和采用3D V-cache的Genoa-X CPU、以及包括Instinct MI300X GPU和MI300A APU在内的AI平台等。AMD 的Al战略主要在于三个方向:广泛的 CPU 和 GPU 产品组合、开放稳定且经过验证(open, steady and proven)的软件平台、以及深入的合作伙伴生态系统。AMD并未披露MI300系列的关键客户合作信息,发布会当天收盘下挫3.61%。但根据路透社6月14日的独家报道,亚马逊管理层Dave Brown表示AWS正在考虑使用MI300。我们在今年的前序报告:5月18日发布的《AMD:MI300在AI正面交锋英伟达,16年CPU突围成功能否复制?》、5月30日发布的《英伟达GH200 vs AMD MI300》和6月11日发布的《AMD MI300:AI芯片十问十答》中提到,MI300 全方位追击英伟达Grace Hopper,但软件生态完善或成破局关键。 MI300X参数比肩H100,MI300A对阵GH200具一战之力 在以AI为首的战略背景下,此次数据中心与人工智能技术首映会发布的纯GPU MI300X参数跟英伟达H100比肩,而CPU+GPU架构的MI300A对阵GH200也具一战之力。本次首映会中AMD展现出的AI能力与我们几个前序报告中提及的大体一致,蓄势待发切入AI训练赛道。 MI300X是纯GPU产品,由12个chiplets(当中共8个GPU)构成,专门为生成式AI和大型语言模型(LLM)而设;对比MI300A由13个chiplets(当中6个GPU和3个CPU)构成。MI300X参数上值得关注的亮点包括:1)192GB HBM3内存,领先于英伟达H100 NVL的双卡共188GB HBM3;2)共1530亿的晶体管数量,远超H100的800亿;3)内存带宽5.2TB/s与英伟达H100的2-7.2TB/s相近;4)Infinity Fabric互联带宽的896GB/s与NVLink的900GB/s也相差无几;5)比H100 高2.4X的HBM密度,以及1.6X HBM带宽。无可否认,MI300X或将成为客户在H100之外有力选择,或也可对AI芯片定价造成一定影响。MI300A目前正在送样,而MI300X则要等到Q3。 AMD也展示了MI300X在400亿参数的Falcon模型上进行实时推理的能力,公司称这是此等参数规模的大语言模型第一次在单GPU上运行。公司表示MI300X还可运行规模更大的模型,比如Meta的OPT模型(660亿参数版本)和LLaMA(650亿参数),如果使用FP16精度在单一MI300X上推理,最高可以运行800亿参数的模型。 AMD的MI300A为APU架构(Zen 4 CPU + CNDA 3 GPU),与英伟达的GH200正面交锋。AMD于2023年1月的CES 2023介绍了MI300(我们在前序报告中介绍的CPU+GPU架构,就是现今的MI300A)。它结合CPU与GPU,聚焦AI和HPC(high performance computing),对标英伟达Grace Hopper(Grace CPU + Hopper H100 GPU)。性能方面比前序产品MI250高8X,效率也高5X。AMD这次也一改过去GPU产品主要应用在图像处理及AI推理领域的局限。MI300A应该是除了谷歌的TPU之外,能与英伟达在AI训练端上匹敌的产品。MI300A在规格及性能方面同样全面追击英伟达Grace Hopper。 从封装方案看,MI300系列都使用了台积电SoIC(3D)和CoWoS(2.5D)两种封装技术,相比英伟达的H100和GH200则只采用CoWoS封装技术。3D Chiplet封装技术具有提高性能、降低延迟和功耗的优点,也可弥补x86架构相较ARM架构在AI应用中的能耗问题。在MI300A中,有6个GPU、3个CPU和4个I/O+cache共13个chiplets;而在MI300X中,有8个GPU和4个I/O+cache共12个chiplets。MI300A将13个chiplets 分为两层:上层为9个基于5nm制程的chiplets (据 PCgamers推测,包括3个CPU和6个GPU),而下层为4个基于6nm制程的I/O+cache chiplets,芯片两侧围绕8个总计128GB容量的HBM3高带宽内存。MI300X与MI300A相比,去掉了3个CPU,换为2个GPU,并将HBM3内存从128GB提高到了192GB。据Digitimes 2023年6月12日称,台积电确认将部分先进封装外包给其他厂商。 MI300A的客户劳伦斯利弗莫尔国家实验室在2023年5月22日的ISC 2023大会上表示,MI300A统一的内存层可简化编程,降低不同类型计算和不同内存池之间数据移动的复杂性,从而减少延迟并提高性能和功效。MI300A将于2023年底搭载在该实验室,由慧与(Hewlett Packard Enterprise)旗下超算公司Cray制造的El Capitan超级计算机上。 多方入局,英伟达在AI芯片市场能否笑到最后? 除英伟达和AMD外,还需关注英特尔和其他AI芯片企业如Cerebras和SambaNova等的布局,但我们认为更重要的竞争对手也许是云计算巨头们自己设计专用芯片。Lisa Su在会上也表示,数据中心的AI芯片市场规模将从今年的300亿美元左右,上升至2027年的1500亿美元。 英特尔的AI芯片布局包括GPU产品Ponte Vecchio(今年一季度推出)和下一代Falcon(公司准备在2025年推出),另外也包括Habana Gaudi系列。在今年三月,英特尔发布了加速计算系统和图像组的暂代总经理Jeff McVeigh的一封信。信中提到公司GPU产品的未来的发展路径,包括取消一些原定在未来1至1.5年准备推出的服务器GPU产品,如Rialto Bridge,但会将更多资源投放到Falcon上。这意味着英特尔在Ponte Vecchio 之后,将相隔最少两年才会推出新的GPU产品Falcon。 1)Ponte Vecchio:早在2021年发布,但2023年一季度才推出。Ponte Vecchio GPU结构复杂,一共有47功能片,分5个制程。英特尔在2021年8月19日的Architecture Day宣布Ponte Vecchio GPU(Xe HPC)的计算层采用了台积电N5工艺,基底采用了Intel 7(对标台积电7nm),Xe Link I/O是台积电N7,另外Rambo Cache采用的是Intel 7,对比H100和MI300的台积电N5制程。晶体管数量超1000亿个,高于H100的800亿,但低于MI300X的1530亿。内存属HBM2e,落后于H100和MI300X的HBM3。 2)Falcon Shores:Falcon Shores原定为XPU(即CPU+GPU架构)产品,并准备于2024年推出,但目前改为纯GPU架构,推迟到2025年推出。反观,英伟达和AMD也同时发布了CPU+GPU架构的AI芯片,因此英特尔在此架构上属于掉队。目前产品参数细节还未完全公布,已知道有288GB的HBM3和9.8TB/s的内存带宽,并支持较小的数据精度,如BF16和FP8。 3)Habana Gaudi:Gaudi是由英特尔在2019年12月以20亿美元收购的Habana Labs,主要设计ASIC芯片。第一款Gaudi(TSMC N16)于2019年6月推出,目前已迭代至Habana Gaudi2(TSMC N7),2022年末已推出。Gaudi2包含2个MME(Matrix Multiplication Engine,矩阵乘法引擎)和24个TPC(Tensor Processor Core,张量处理器),前者负责处理所有可以转换成矩阵运算的任务,例如卷积、GEMM等,后者处理其他类型的运算。这两种计算引擎可以并行使用,因此两种类型的运算可以重叠进行,在Gaudi2的产品技术手册中,通过这种重叠进行的运算解释了Gaudi2可以有效提高运行AI模型的速度的原因。Gaudi2的HBM2e内存为96GB,内存带宽为2.45TB/s。 受益于以上架构特点,公司表示Gaudi2的基准测试较A100表现较为优秀。推理端,HuggingFace在2023年3月对Habana Gaudi 2与A100进行了大模型(BLOOMZ,1760亿参数)推理的基准测试。结果显示,Gaudi2比A100快1.2倍。训练端,Habana Lab对Habana Gaudi 2与A100进行了基准测试,运行了两款芯片在RestNet50和BERT模型训练的测试,称其训练吞吐量可达到英伟达A100 GPU的两倍。然而,想要与英伟达在训练端匹敌,Gaudi还要面对H100。英伟达在2022年11月对H100和Gaudi 2进行了对比,在ResNet模型上,H100比Gaudi2快1.1倍左右,而在BERT模型上,H100比Gaudi2快2.4倍。我们需要强调,ASIC仍然面临通用性较弱,以及开发成本较高等局限,大规模抢占GPU训练市场的可能性目前来说较为有限。 “Big 5 startups”:AI芯片的另外一类玩家是“Big 5 startups”,指Graphcore,Habana(已属英特尔), Cerebras,SambaNova和寒武纪五家初创芯片企业,其中寒武纪为中国企业。我们认为值得关注Cerabras和SambaNova等对英伟达发起的以小博大尝试: 1)Cerabras:目前的最新AI芯片为WSE-2,使用台积电7nm工艺,2021年4月推出。Wafer Scale Engine即晶圆级别芯片,晶圆级指的是这款芯片几乎像一个完整的晶圆一样大(晶圆通常为8英寸直径左右,和WSE2的460cm2在同一个量级),一块WSE-2上有2.6万亿晶体管,核心数量达到85万个,是A100芯片的123倍。生产这种大型芯片的动力是为了更好地部署AI大模型,公司称由于AI大模型需要在众多的GPU上分布式训练,数据在GPU之间传输,浪费时间又增加能耗,所以想让产品同时具备百千个GPU的算力和单一芯片的简单性。Cerabras把一片WSE2部署在一台CS-2 AI平台上,一台CS-2售价在200万美元以上,目前已被多个科研机构(包括NCSA国家超级电脑应用中心、Leibniz Supercomputing Centre莱布尼兹超级计算中心等)和一家美国主要的金融机构用于搭建超算,并部署AI工作。值得关注的是,WSE-2一度是单片能训练最大参数量AI模型的芯片:2022年6月Cerabras宣布单片WSE-2可以训练200亿参数的模型。对比现在AMD的MI300X能实现400-800亿模型的推理。 2)SambaNova:最新的AI芯片是SN30,采用台积电N7工艺,有860亿晶体管,可编程性强,类似于一款FPGA,但公司称SN30相比传统的FPGA配置时间更快。公司称基于SN30的DataScale系统(8个SN30)在训练130亿参数GPT模型时比DGX A100快6倍。埃森哲已于2023年4月宣布采用SambaNova的AI芯片平台SN30系统用于生成式AI开发。 3)Graphcore:Graphcore最新的AI芯片是Bow IPU,类似于一款ASIC,但公司称其不属于ASIC或GPU的任何一种。单片1472核,c2c的传输带宽是320GB/s,搭载单片Bow IPU的AI平台C600主攻推理场景。Graphcore的IPU产品本来应用在微软Azure,但2022年10月突然宣告合作结束。目前,Azure绝大部分AI芯片都来自英伟达,也在自研Athena。Graphcore正在努力切入中国市场,为中国大型互联网公司为主提供AI硬件。 云厂商自研AI芯片或将是对英伟达最大的竞争对手。云厂商针对TCO(total cost of ownership),具备较高意愿自研芯片。但除了自身的研发能力外,其他条件也必须要符合,包括算法要较为成熟和稳定、拥有自己的软件生态和应用,以及足够的芯片需求去摊分设计芯片的固定成本。 云厂商自研AI芯片的典型是谷歌TPU(Tensor Processing Unit, 从2017年开始已具备训练和推理能力),目前已发展到第四代,在架构与性能参数上不断迭代。我们认为谷歌的TPU是少数能与英伟达高算力GPU匹敌的AI芯片。谷歌目前仅通过谷歌云服务平台向外部客户提供TPU的算力租赁服务,而并未将其作为硬件产品出售。 谷歌TPU的应用可以分为两类,分别是对内承担AI工作负载和其他应用,对外在云服务上提供给客户。对内:根据路透社4月5日的报道,目前谷歌内部90%的AI工作负载都使用TPU,例如在拥有5400亿参数的PaLM模型训练中,就使用了6144个TPU v4。今年的PaLM2也是采用TPU v4来训练。除AI工作负载之外,TPU也已广泛应用于翻译、相册、搜索、Google助理和Gmail等众多Google产品。对外:谷歌云服务同时提供GPU和TPU给客户选择。谷歌云上TPU相比GPU的价格较有优势,但也在一定程度上受限于生态圈。谷歌云上A100 80GB价格为3.93美元/芯片/小时,TPU v4价格为3.22美元/芯片/小时。但是,需要考虑谷歌的TPU是专门针对自身的开源深度学习框架TensorFlow作出全面优化,因此其他学习框架在TPU运行的效率或不及TensorFlow。然而,TensorFlow在深度学习里的生态也成熟,使用者众,但其他机器学习库的开发者群或也会有自己的偏好。目前使用TPU的客户包括Midjourney、Cohere、LG AI Research等AI公司。 第一代TPU从2015年开始被使用于谷歌云计算数据中心的机器学习应用中,彼时仅面向推理端,但从2017年推出第二代开始,TPU已同时拥有训练和推理能力。第三代TPU于2018年发布,旨在提高性能和能效以满足不断增长的机器学习任务需求,但其应用范围仍然会在一定程度上受限于谷歌的生态系统和软件包。矩阵乘法是Transformer模型中最为关键的计算步骤之一,而TPU针对矩阵乘法进行了专门的优化,采用脉动列阵,对大规模矩阵的乘法可以最大化数据复用,减少访存次数,大幅提升Transformer模型的训练速度,同时节约训练成本。 微软早在2010年开始希望自研AI硬件,当时以外采FPGA、自己搭建运算平台为主要目标。FPGA的方案最早由微软的计算机架构研究员、FPGA专家Doug Burger提出。根据Shilicon,微软自研FPGA的第一阶段采用了单板多FPGA的方案,即每块加速卡上集成6片Xilinx Virtix-6 FPGA,各FPGA之间通过自身的通用I/O端口相连和通信,但整体稳定性存在较多问题,若一块FPGA出问题,整个板卡都会出问题。第二阶段从单板多FPGA,变成了单板单FPGA。但是,这种方案为实现FPGA之间的低延时通信,FPGA之间的互联需要通过两类特殊定制的线缆,成本高昂且实现难度较高。第三阶段为解决互联问题,取消了FPGA互连的网络,直接将FPGA与数据中心网络互连。到此为止,微软的所有努力都是使用外采的FPGA产品,自己搭建FPGA的AI平台。 目前,微软云Azure已经开始自研AI芯片。据Tom’s Hardware,芯片的代号为Athena,据Tom’s Hardware 2023年4月18日消息,Athena使用台积电5nm制程,专门为大语言模型训练设计。据彭博社 5月4日报道,微软将注资 AMD 并开展合作,目前合作研发的微软 AI 芯片即为Athena,希望为ChatGPT等大语言模型的训练及推理提供英伟达芯片以外的替代方案。随后5月5日,微软发言人Frank Shaw表示AMD参与“雅典娜”项目的报道不实,但并未明确微软与AMD的合作关系。我们认为,大型云计算供应商拥有财力物力,面对较高的外购成本和较有限的灵活性,选择自己设计AI芯片并非意外,且微软与OpenAI的合作中用到大量的英伟达芯片。我们认为云计算大厂希望出现一个二供的选择也很理所当然。 AWS分别在2019和2020年推出AI模型推理端芯片Inferentia以及训练端芯片Trainium,并整合到其AWS中。2022年正式推出的Trn1 AI平台可以部署最多16个Trainium,可在AWS云上提升AI模型的训练速度,减少模型训练时间。据AWS,Trn1可以节省客户50%左右的AI模型训练成本。 第四代 EPYC 数据中心CPU家族成员发布,性能重磅升级 AMD在会上强调了CPU在AI领域的重要性,称目前绝大多数 AI工作负载仍以CPU运行,并正式推出了行业首款x86云原生Bergamo及采用3D V-Cache技术的Genoa-X,并与Intel云端最新款CPU 4th gen Xeon(也就是Sapphire Rapids)进行对比。Bergamo基于Zen 4c架构,内核+L2区域合计2.48平方毫米,比Zen 4的3.84平方毫米减少了35%,采用了8个16核的CCD,内核数最高可至128个,可提高多线程能力,并对标其他多核数的服务器产品如英特尔下一代144核的Sierra Forest。Genoa-X内核数最高96个,采用1.3GB的L3缓存,并集成了3D V-Cache技术,适用于缓存需求较高的技术计算。二者作为第四代 EPYC 家族成员均采用台积电 5nm 制程,对比Sapphire Rapids采用的Intel 7节点(10nm相当于台积电7nm)尚处领先。 AMD第四代 EPYC CPU均采用台积电 5nm 制程,目前仍领先于英特尔。但Intel在先进制程的追赶方案比较激进,似有正在逐步接近AMD制程的可能。目前,Intel 在服务器领域最新产品Sapphire Rapids采用的Intel 7节点(10nm相当于台积电7nm)。但根据Intel技术路线图,如果英特尔按照“四年五节点”计划顺利推进,则AMD依赖台积电所获得的制程优势或将缩小,甚至在服务器端2025年可能出现英特尔超过台积电的情况。但英特尔究竟能否在2025年或以前顺利推进制程计划还需进一步观察,2024年Intel 3的落地情况将是关键一步。 最后,AMD还宣布了与AWS、Oracle、Meta及微软在第四代EPYC CPU产品上的合作关系。但并没有宣布MI300系列的合作客户。 风险提示: 技术落地缓慢:公司的生产技术推进和产品落地可能达不到预期,或影响营收及利润。 中美局势可能升级:中国是美国半导体产业的重要市场之一,如果中美局势再次升级,将对宏观因素和板块产品销售产生影响。 芯片需求不及预期:市场的芯片需求规模可能不及预期,影响行业营收及利润。 宏观经济不确定性:宏观经济的下行压力和不确定性可能影响公司主营业务及合作进展。 相关信息数据来自于相关公司的公开的客观信息,不代表对相关公司的研究覆盖和推荐。 相关研报 研报:《AMD正式宣战,谁来为MI300站台?》2023年6月15日 何翩翩 S0570523020002 | ASI353 关注我们 华泰证券研究所国内站(研究Portal) https://inst.htsc.com/research 访问权限:国内机构客户 华泰证券研究所海外站 https://intl.inst.htsc.com/mainland 访问权限:美国及香港金控机构客户 添加权限请联系您的华泰对口客户经理 免责声明 ▲向上滑动阅览 本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。 本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。
AMD数据中心和人工智能技术首映式于加州时间2023年6月13日早上10点开始。主要发布产品为:云原生的Bergamo CPU、3D V-Cache的Genoa-X CPU及AI芯片Instinct MI300X GPU和MI300A APU。AMD CEO Lisa Su认为Al发展战略主要在三方面: 广泛的 CPU 和 GPU 产品组合、开放且经验证的软件平台以及深入的合作伙伴生态系统。AMD并未披露MI300系列的关键客户合作信息,发布会当天收盘下挫3.61%。但根据路透社6月14日独家报道,亚马逊高管Dave Brown表示AWS正考虑使用MI300。我们前序报告中提到,MI300 全方位追击英伟达Grace Hopper,但软件生态完善或成破局关键。 核心观点 MI300X & MI300A:与英伟达相比,AMD AI能力如何? AMD展现出的AI产品与我们几个前序报告中描述的大体一致,蓄势待发切入AI训练赛道。MI300A为CPU+GPU架构,对标英伟达GH200;而这次发布的MI300X为纯GPU,对标英伟达H100:1)单卡内存HBM3为192GB,领先英伟达H100 NVL双卡的188GB;2)共1530亿个晶体管,超过H100的800亿个;3)内存带宽5.2TB/s与H100的2-7.2TB/s相近。公司展示MI300X运行400亿参数的Falcon模型实时推理,此等参数规模的大语言模型为第一次在单片GPU上运行。AMD MI300系列将成为英伟达有力的竞争对手,另外,还需关注英特尔和其他AI芯片企业如Cerebras和SambaNova,但更重要的竞争对手或是云计算巨头自研芯片。 第四代 EPYC 服务器CPU重磅升级,制程和性能均超Intel 业界首款x86云原生Bergamo及采用3D V-Cache技术的Genoa-X正式推出。前者的峰值内核数达128(可提高多线程能力,并对标其他多核数的服务器产品如144核的Intel Sierra Forest),基于特别定制的Zen 4c微架构,在保持与Zen 4架构基本相同的功能集的同时将内核缩小35%,让数据中心CPU的性能推向新高;后者采用超过1GB的L3缓存和3D V-Cache技术,适用于缓存需求较高的技术计算。二者均为EPYC第四代和采用台积电 5nm 制程,对比Sapphire Rapids采用的Intel 7节点(10nm相当于台积电7nm),性能和制程尚处领先。此外,AMD也宣布与AWS、Oracle、Meta及微软在第四代EPYC的合作关系。 PyTorch与Hugging Face助力,ROCm生态圈奋起直追 PyTorch创始人在会上宣布PyTorch 2.0为ROCm 5版本提供支持。Hugging Face CEO也宣布将在AMD平台上优化数千个模型。此前我们在前序报告里多次对比英伟达CUDA和AMD ROCm生态圈:ROCm起步较晚,开发者数量与CUDA相差较大。ROCm虽能完全兼容CUDA,但亦只属权宜之计。AMD正积极拓展生态圈,包括支持Windows、在AI领域开拓更广泛的框架,如MIOpen和MIVisionX,以及支持更多的软件,包括TensorFlow、PyTorch等,与二者的合作将对ROCm生态圈产生关键助力。 AMD能否在AI领域突围英伟达? Lisa Su于5月31日的《福布斯》采访时强调 “放眼 5年将在 AMD 每一个产品中看到AI”,AI 是公司的战略首位。目前,算力高的英伟达占据AI训练端的领导地位,但随着AMD在AI芯片上逐步发力,或能开始撼动英伟达在行业里独占鳌头的地位。我们也认为云厂商应不希望AI芯片呈现一家独大的局面,MI300恰逢其时地出现,为市场提供了英伟达以外的选择。 风险提示:技术落地缓慢、中美局势可能升级、芯片需求不及预期。 正文 AI争霸战大幕正式开启,谁来为AMD MI300站台? AMD数据中心和人工智能技术首映式于加州时间2023年6月13日早上10时开始。本次发布的主要产品为:云原生的Bergamo CPU、面向技术计算和采用3D V-cache的Genoa-X CPU、以及包括Instinct MI300X GPU和MI300A APU在内的AI平台等。AMD 的Al战略主要在于三个方向:广泛的 CPU 和 GPU 产品组合、开放稳定且经过验证(open, steady and proven)的软件平台、以及深入的合作伙伴生态系统。AMD并未披露MI300系列的关键客户合作信息,发布会当天收盘下挫3.61%。但根据路透社6月14日的独家报道,亚马逊管理层Dave Brown表示AWS正在考虑使用MI300。我们在今年的前序报告:5月18日发布的《AMD:MI300在AI正面交锋英伟达,16年CPU突围成功能否复制?》、5月30日发布的《英伟达GH200 vs AMD MI300》和6月11日发布的《AMD MI300:AI芯片十问十答》中提到,MI300 全方位追击英伟达Grace Hopper,但软件生态完善或成破局关键。 MI300X参数比肩H100,MI300A对阵GH200具一战之力 在以AI为首的战略背景下,此次数据中心与人工智能技术首映会发布的纯GPU MI300X参数跟英伟达H100比肩,而CPU+GPU架构的MI300A对阵GH200也具一战之力。本次首映会中AMD展现出的AI能力与我们几个前序报告中提及的大体一致,蓄势待发切入AI训练赛道。 MI300X是纯GPU产品,由12个chiplets(当中共8个GPU)构成,专门为生成式AI和大型语言模型(LLM)而设;对比MI300A由13个chiplets(当中6个GPU和3个CPU)构成。MI300X参数上值得关注的亮点包括:1)192GB HBM3内存,领先于英伟达H100 NVL的双卡共188GB HBM3;2)共1530亿的晶体管数量,远超H100的800亿;3)内存带宽5.2TB/s与英伟达H100的2-7.2TB/s相近;4)Infinity Fabric互联带宽的896GB/s与NVLink的900GB/s也相差无几;5)比H100 高2.4X的HBM密度,以及1.6X HBM带宽。无可否认,MI300X或将成为客户在H100之外有力选择,或也可对AI芯片定价造成一定影响。MI300A目前正在送样,而MI300X则要等到Q3。 AMD也展示了MI300X在400亿参数的Falcon模型上进行实时推理的能力,公司称这是此等参数规模的大语言模型第一次在单GPU上运行。公司表示MI300X还可运行规模更大的模型,比如Meta的OPT模型(660亿参数版本)和LLaMA(650亿参数),如果使用FP16精度在单一MI300X上推理,最高可以运行800亿参数的模型。 AMD的MI300A为APU架构(Zen 4 CPU + CNDA 3 GPU),与英伟达的GH200正面交锋。AMD于2023年1月的CES 2023介绍了MI300(我们在前序报告中介绍的CPU+GPU架构,就是现今的MI300A)。它结合CPU与GPU,聚焦AI和HPC(high performance computing),对标英伟达Grace Hopper(Grace CPU + Hopper H100 GPU)。性能方面比前序产品MI250高8X,效率也高5X。AMD这次也一改过去GPU产品主要应用在图像处理及AI推理领域的局限。MI300A应该是除了谷歌的TPU之外,能与英伟达在AI训练端上匹敌的产品。MI300A在规格及性能方面同样全面追击英伟达Grace Hopper。 从封装方案看,MI300系列都使用了台积电SoIC(3D)和CoWoS(2.5D)两种封装技术,相比英伟达的H100和GH200则只采用CoWoS封装技术。3D Chiplet封装技术具有提高性能、降低延迟和功耗的优点,也可弥补x86架构相较ARM架构在AI应用中的能耗问题。在MI300A中,有6个GPU、3个CPU和4个I/O+cache共13个chiplets;而在MI300X中,有8个GPU和4个I/O+cache共12个chiplets。MI300A将13个chiplets 分为两层:上层为9个基于5nm制程的chiplets (据 PCgamers推测,包括3个CPU和6个GPU),而下层为4个基于6nm制程的I/O+cache chiplets,芯片两侧围绕8个总计128GB容量的HBM3高带宽内存。MI300X与MI300A相比,去掉了3个CPU,换为2个GPU,并将HBM3内存从128GB提高到了192GB。据Digitimes 2023年6月12日称,台积电确认将部分先进封装外包给其他厂商。 MI300A的客户劳伦斯利弗莫尔国家实验室在2023年5月22日的ISC 2023大会上表示,MI300A统一的内存层可简化编程,降低不同类型计算和不同内存池之间数据移动的复杂性,从而减少延迟并提高性能和功效。MI300A将于2023年底搭载在该实验室,由慧与(Hewlett Packard Enterprise)旗下超算公司Cray制造的El Capitan超级计算机上。 多方入局,英伟达在AI芯片市场能否笑到最后? 除英伟达和AMD外,还需关注英特尔和其他AI芯片企业如Cerebras和SambaNova等的布局,但我们认为更重要的竞争对手也许是云计算巨头们自己设计专用芯片。Lisa Su在会上也表示,数据中心的AI芯片市场规模将从今年的300亿美元左右,上升至2027年的1500亿美元。 英特尔的AI芯片布局包括GPU产品Ponte Vecchio(今年一季度推出)和下一代Falcon(公司准备在2025年推出),另外也包括Habana Gaudi系列。在今年三月,英特尔发布了加速计算系统和图像组的暂代总经理Jeff McVeigh的一封信。信中提到公司GPU产品的未来的发展路径,包括取消一些原定在未来1至1.5年准备推出的服务器GPU产品,如Rialto Bridge,但会将更多资源投放到Falcon上。这意味着英特尔在Ponte Vecchio 之后,将相隔最少两年才会推出新的GPU产品Falcon。 1)Ponte Vecchio:早在2021年发布,但2023年一季度才推出。Ponte Vecchio GPU结构复杂,一共有47功能片,分5个制程。英特尔在2021年8月19日的Architecture Day宣布Ponte Vecchio GPU(Xe HPC)的计算层采用了台积电N5工艺,基底采用了Intel 7(对标台积电7nm),Xe Link I/O是台积电N7,另外Rambo Cache采用的是Intel 7,对比H100和MI300的台积电N5制程。晶体管数量超1000亿个,高于H100的800亿,但低于MI300X的1530亿。内存属HBM2e,落后于H100和MI300X的HBM3。 2)Falcon Shores:Falcon Shores原定为XPU(即CPU+GPU架构)产品,并准备于2024年推出,但目前改为纯GPU架构,推迟到2025年推出。反观,英伟达和AMD也同时发布了CPU+GPU架构的AI芯片,因此英特尔在此架构上属于掉队。目前产品参数细节还未完全公布,已知道有288GB的HBM3和9.8TB/s的内存带宽,并支持较小的数据精度,如BF16和FP8。 3)Habana Gaudi:Gaudi是由英特尔在2019年12月以20亿美元收购的Habana Labs,主要设计ASIC芯片。第一款Gaudi(TSMC N16)于2019年6月推出,目前已迭代至Habana Gaudi2(TSMC N7),2022年末已推出。Gaudi2包含2个MME(Matrix Multiplication Engine,矩阵乘法引擎)和24个TPC(Tensor Processor Core,张量处理器),前者负责处理所有可以转换成矩阵运算的任务,例如卷积、GEMM等,后者处理其他类型的运算。这两种计算引擎可以并行使用,因此两种类型的运算可以重叠进行,在Gaudi2的产品技术手册中,通过这种重叠进行的运算解释了Gaudi2可以有效提高运行AI模型的速度的原因。Gaudi2的HBM2e内存为96GB,内存带宽为2.45TB/s。 受益于以上架构特点,公司表示Gaudi2的基准测试较A100表现较为优秀。推理端,HuggingFace在2023年3月对Habana Gaudi 2与A100进行了大模型(BLOOMZ,1760亿参数)推理的基准测试。结果显示,Gaudi2比A100快1.2倍。训练端,Habana Lab对Habana Gaudi 2与A100进行了基准测试,运行了两款芯片在RestNet50和BERT模型训练的测试,称其训练吞吐量可达到英伟达A100 GPU的两倍。然而,想要与英伟达在训练端匹敌,Gaudi还要面对H100。英伟达在2022年11月对H100和Gaudi 2进行了对比,在ResNet模型上,H100比Gaudi2快1.1倍左右,而在BERT模型上,H100比Gaudi2快2.4倍。我们需要强调,ASIC仍然面临通用性较弱,以及开发成本较高等局限,大规模抢占GPU训练市场的可能性目前来说较为有限。 “Big 5 startups”:AI芯片的另外一类玩家是“Big 5 startups”,指Graphcore,Habana(已属英特尔), Cerebras,SambaNova和寒武纪五家初创芯片企业,其中寒武纪为中国企业。我们认为值得关注Cerabras和SambaNova等对英伟达发起的以小博大尝试: 1)Cerabras:目前的最新AI芯片为WSE-2,使用台积电7nm工艺,2021年4月推出。Wafer Scale Engine即晶圆级别芯片,晶圆级指的是这款芯片几乎像一个完整的晶圆一样大(晶圆通常为8英寸直径左右,和WSE2的460cm2在同一个量级),一块WSE-2上有2.6万亿晶体管,核心数量达到85万个,是A100芯片的123倍。生产这种大型芯片的动力是为了更好地部署AI大模型,公司称由于AI大模型需要在众多的GPU上分布式训练,数据在GPU之间传输,浪费时间又增加能耗,所以想让产品同时具备百千个GPU的算力和单一芯片的简单性。Cerabras把一片WSE2部署在一台CS-2 AI平台上,一台CS-2售价在200万美元以上,目前已被多个科研机构(包括NCSA国家超级电脑应用中心、Leibniz Supercomputing Centre莱布尼兹超级计算中心等)和一家美国主要的金融机构用于搭建超算,并部署AI工作。值得关注的是,WSE-2一度是单片能训练最大参数量AI模型的芯片:2022年6月Cerabras宣布单片WSE-2可以训练200亿参数的模型。对比现在AMD的MI300X能实现400-800亿模型的推理。 2)SambaNova:最新的AI芯片是SN30,采用台积电N7工艺,有860亿晶体管,可编程性强,类似于一款FPGA,但公司称SN30相比传统的FPGA配置时间更快。公司称基于SN30的DataScale系统(8个SN30)在训练130亿参数GPT模型时比DGX A100快6倍。埃森哲已于2023年4月宣布采用SambaNova的AI芯片平台SN30系统用于生成式AI开发。 3)Graphcore:Graphcore最新的AI芯片是Bow IPU,类似于一款ASIC,但公司称其不属于ASIC或GPU的任何一种。单片1472核,c2c的传输带宽是320GB/s,搭载单片Bow IPU的AI平台C600主攻推理场景。Graphcore的IPU产品本来应用在微软Azure,但2022年10月突然宣告合作结束。目前,Azure绝大部分AI芯片都来自英伟达,也在自研Athena。Graphcore正在努力切入中国市场,为中国大型互联网公司为主提供AI硬件。 云厂商自研AI芯片或将是对英伟达最大的竞争对手。云厂商针对TCO(total cost of ownership),具备较高意愿自研芯片。但除了自身的研发能力外,其他条件也必须要符合,包括算法要较为成熟和稳定、拥有自己的软件生态和应用,以及足够的芯片需求去摊分设计芯片的固定成本。 云厂商自研AI芯片的典型是谷歌TPU(Tensor Processing Unit, 从2017年开始已具备训练和推理能力),目前已发展到第四代,在架构与性能参数上不断迭代。我们认为谷歌的TPU是少数能与英伟达高算力GPU匹敌的AI芯片。谷歌目前仅通过谷歌云服务平台向外部客户提供TPU的算力租赁服务,而并未将其作为硬件产品出售。 谷歌TPU的应用可以分为两类,分别是对内承担AI工作负载和其他应用,对外在云服务上提供给客户。对内:根据路透社4月5日的报道,目前谷歌内部90%的AI工作负载都使用TPU,例如在拥有5400亿参数的PaLM模型训练中,就使用了6144个TPU v4。今年的PaLM2也是采用TPU v4来训练。除AI工作负载之外,TPU也已广泛应用于翻译、相册、搜索、Google助理和Gmail等众多Google产品。对外:谷歌云服务同时提供GPU和TPU给客户选择。谷歌云上TPU相比GPU的价格较有优势,但也在一定程度上受限于生态圈。谷歌云上A100 80GB价格为3.93美元/芯片/小时,TPU v4价格为3.22美元/芯片/小时。但是,需要考虑谷歌的TPU是专门针对自身的开源深度学习框架TensorFlow作出全面优化,因此其他学习框架在TPU运行的效率或不及TensorFlow。然而,TensorFlow在深度学习里的生态也成熟,使用者众,但其他机器学习库的开发者群或也会有自己的偏好。目前使用TPU的客户包括Midjourney、Cohere、LG AI Research等AI公司。 第一代TPU从2015年开始被使用于谷歌云计算数据中心的机器学习应用中,彼时仅面向推理端,但从2017年推出第二代开始,TPU已同时拥有训练和推理能力。第三代TPU于2018年发布,旨在提高性能和能效以满足不断增长的机器学习任务需求,但其应用范围仍然会在一定程度上受限于谷歌的生态系统和软件包。矩阵乘法是Transformer模型中最为关键的计算步骤之一,而TPU针对矩阵乘法进行了专门的优化,采用脉动列阵,对大规模矩阵的乘法可以最大化数据复用,减少访存次数,大幅提升Transformer模型的训练速度,同时节约训练成本。 微软早在2010年开始希望自研AI硬件,当时以外采FPGA、自己搭建运算平台为主要目标。FPGA的方案最早由微软的计算机架构研究员、FPGA专家Doug Burger提出。根据Shilicon,微软自研FPGA的第一阶段采用了单板多FPGA的方案,即每块加速卡上集成6片Xilinx Virtix-6 FPGA,各FPGA之间通过自身的通用I/O端口相连和通信,但整体稳定性存在较多问题,若一块FPGA出问题,整个板卡都会出问题。第二阶段从单板多FPGA,变成了单板单FPGA。但是,这种方案为实现FPGA之间的低延时通信,FPGA之间的互联需要通过两类特殊定制的线缆,成本高昂且实现难度较高。第三阶段为解决互联问题,取消了FPGA互连的网络,直接将FPGA与数据中心网络互连。到此为止,微软的所有努力都是使用外采的FPGA产品,自己搭建FPGA的AI平台。 目前,微软云Azure已经开始自研AI芯片。据Tom’s Hardware,芯片的代号为Athena,据Tom’s Hardware 2023年4月18日消息,Athena使用台积电5nm制程,专门为大语言模型训练设计。据彭博社 5月4日报道,微软将注资 AMD 并开展合作,目前合作研发的微软 AI 芯片即为Athena,希望为ChatGPT等大语言模型的训练及推理提供英伟达芯片以外的替代方案。随后5月5日,微软发言人Frank Shaw表示AMD参与“雅典娜”项目的报道不实,但并未明确微软与AMD的合作关系。我们认为,大型云计算供应商拥有财力物力,面对较高的外购成本和较有限的灵活性,选择自己设计AI芯片并非意外,且微软与OpenAI的合作中用到大量的英伟达芯片。我们认为云计算大厂希望出现一个二供的选择也很理所当然。 AWS分别在2019和2020年推出AI模型推理端芯片Inferentia以及训练端芯片Trainium,并整合到其AWS中。2022年正式推出的Trn1 AI平台可以部署最多16个Trainium,可在AWS云上提升AI模型的训练速度,减少模型训练时间。据AWS,Trn1可以节省客户50%左右的AI模型训练成本。 第四代 EPYC 数据中心CPU家族成员发布,性能重磅升级 AMD在会上强调了CPU在AI领域的重要性,称目前绝大多数 AI工作负载仍以CPU运行,并正式推出了行业首款x86云原生Bergamo及采用3D V-Cache技术的Genoa-X,并与Intel云端最新款CPU 4th gen Xeon(也就是Sapphire Rapids)进行对比。Bergamo基于Zen 4c架构,内核+L2区域合计2.48平方毫米,比Zen 4的3.84平方毫米减少了35%,采用了8个16核的CCD,内核数最高可至128个,可提高多线程能力,并对标其他多核数的服务器产品如英特尔下一代144核的Sierra Forest。Genoa-X内核数最高96个,采用1.3GB的L3缓存,并集成了3D V-Cache技术,适用于缓存需求较高的技术计算。二者作为第四代 EPYC 家族成员均采用台积电 5nm 制程,对比Sapphire Rapids采用的Intel 7节点(10nm相当于台积电7nm)尚处领先。 AMD第四代 EPYC CPU均采用台积电 5nm 制程,目前仍领先于英特尔。但Intel在先进制程的追赶方案比较激进,似有正在逐步接近AMD制程的可能。目前,Intel 在服务器领域最新产品Sapphire Rapids采用的Intel 7节点(10nm相当于台积电7nm)。但根据Intel技术路线图,如果英特尔按照“四年五节点”计划顺利推进,则AMD依赖台积电所获得的制程优势或将缩小,甚至在服务器端2025年可能出现英特尔超过台积电的情况。但英特尔究竟能否在2025年或以前顺利推进制程计划还需进一步观察,2024年Intel 3的落地情况将是关键一步。 最后,AMD还宣布了与AWS、Oracle、Meta及微软在第四代EPYC CPU产品上的合作关系。但并没有宣布MI300系列的合作客户。 风险提示: 技术落地缓慢:公司的生产技术推进和产品落地可能达不到预期,或影响营收及利润。 中美局势可能升级:中国是美国半导体产业的重要市场之一,如果中美局势再次升级,将对宏观因素和板块产品销售产生影响。 芯片需求不及预期:市场的芯片需求规模可能不及预期,影响行业营收及利润。 宏观经济不确定性:宏观经济的下行压力和不确定性可能影响公司主营业务及合作进展。 相关信息数据来自于相关公司的公开的客观信息,不代表对相关公司的研究覆盖和推荐。 相关研报 研报:《AMD正式宣战,谁来为MI300站台?》2023年6月15日 何翩翩 S0570523020002 | ASI353 关注我们 华泰证券研究所国内站(研究Portal) https://inst.htsc.com/research 访问权限:国内机构客户 华泰证券研究所海外站 https://intl.inst.htsc.com/mainland 访问权限:美国及香港金控机构客户 添加权限请联系您的华泰对口客户经理 免责声明 ▲向上滑动阅览 本公众号不是华泰证券股份有限公司(以下简称“华泰证券”)研究报告的发布平台,本公众号仅供华泰证券中国内地研究服务客户参考使用。其他任何读者在订阅本公众号前,请自行评估接收相关推送内容的适当性,且若使用本公众号所载内容,务必寻求专业投资顾问的指导及解读。华泰证券不因任何订阅本公众号的行为而将订阅者视为华泰证券的客户。 本公众号转发、摘编华泰证券向其客户已发布研究报告的部分内容及观点,完整的投资意见分析应以报告发布当日的完整研究报告内容为准。订阅者仅使用本公众号内容,可能会因缺乏对完整报告的了解或缺乏相关的解读而产生理解上的歧义。如需了解完整内容,请具体参见华泰证券所发布的完整报告。 本公众号内容基于华泰证券认为可靠的信息编制,但华泰证券对该等信息的准确性、完整性及时效性不作任何保证,也不对证券价格的涨跌或市场走势作确定性判断。本公众号所载的意见、评估及预测仅反映发布当日的观点和判断。在不同时期,华泰证券可能会发出与本公众号所载意见、评估及预测不一致的研究报告。 在任何情况下,本公众号中的信息或所表述的意见均不构成对任何人的投资建议。订阅者不应单独依靠本订阅号中的内容而取代自身独立的判断,应自主做出投资决策并自行承担投资风险。订阅者若使用本资料,有可能会因缺乏解读服务而对内容产生理解上的歧义,进而造成投资损失。对依据或者使用本公众号内容所造成的一切后果,华泰证券及作者均不承担任何法律责任。 本公众号版权仅为华泰证券所有,未经华泰证券书面许可,任何机构或个人不得以翻版、复制、发表、引用或再次分发他人等任何形式侵犯本公众号发布的所有内容的版权。如因侵权行为给华泰证券造成任何直接或间接的损失,华泰证券保留追究一切法律责任的权利。华泰证券具有中国证监会核准的“证券投资咨询”业务资格,经营许可证编号为:91320000704041011J。
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。