首页 > 公众号研报 > 产业调研:国产AI芯片怎么才能变得好用?| 国君计算机李沐华团队

产业调研:国产AI芯片怎么才能变得好用?| 国君计算机李沐华团队

作者:微信公众号【计算机文艺复兴】/ 发布时间:2023-10-12 / 悟空智库整理
(以下内容从国泰君安《产业调研:国产AI芯片怎么才能变得好用?| 国君计算机李沐华团队》研报附件原文摘录)
  本文主要来自中国工程院院士郑纬民2023年9月在大模型创业大会上的公开演讲。 海外英伟达GPU算力卡一卡难求而且价格昂贵,但是国产卡生态依然存在问题。国产算力要支持大模型训练要把生态做好:第一,就是做好编程框架,利用基本算子快速构建人工智能模型,以降低编写人工智能模型的复杂度。例如:PyTorch,TensorFlow。 第二,实现并行加速,为多机多卡环境提供人工智能模型并行训练的能力,确保能够支持数据并行、模型并行、流水线并行、张量并行等。 第三,做好通信库,提供跨机跨卡的通信能力,支持人工智能模型训练所需的各种通信模式,能根据底层网络特点充分利用网络通信带宽。 第四,做好算子库,算子库提供人工智能模型所需基本操作的高性能实现,要求尽可能覆盖典型人工智能模型所需的操作,要求算子库能充分发挥底层硬件的性能。 第五,做好Al编译器。人工智能程序的目标代码依靠AI编译器生成。对于算子库不能提供的操作,通过Al编译器可以自动生成高效目标代码。因此,做好Al编译器非常重要。 第六,做好编程语言,要求能够编写人工智能模型的基本算子,覆盖底层硬件功能以充分发挥硬件性能。同时,支持在异构处理器上编写并行程序。 第七,做好调度器,提供在大规模系统上高效调度人工智能任务的能力。通过设计高效调度算法,提高集群资源利用率。 第八,做好内存分配系统,针对人工智能应用特点提供高效的内存分配策略。 第九,做好容错系统,提供在硬件发生故障后快速恢复模型训练的能力。第十,做好存储系统,支持训练过程中高效的数据读写(检查点、训练数据等)。 国产AI芯片生态非常重要,芯片性能反而是其次。第一是基于国外或者别的芯片编制的软件要比较容易移植到国产AI芯片的系统中,第二是新写的软件写起来比较顺比较好编,常见算子库都有提供。现在的情况就是生态不太好,做的不够好不够全。 根据中国工程院院士郑纬民在2023年大模型创业大会上的结论,国产Al芯片只要达到国外芯片60%的性能,把生态做好了客户也会满意。到70-80%效果更佳,客户不会因为芯片只有别人的60%而明显感觉不好。 大模型基础设施还要做好平衡设计。一般有四点考虑: 第一,叫系统平衡性原则:半精度运算性能与双精度运算性能的平衡。设计一台人工智能计算机中不仅要考虑半精度运算性能,还要考虑双精度运算能力,双精度与半精度运算性能之比为1:100比较合适。根据科学计算和大模型训练的发展趋势,变精度平衡设计的思想很重要,适应科学计算和更广泛的Al算法和应用提供保障。 第二,做好网络平衡设计。机器由成千上万块卡组成,卡与卡之间需要网络连接,网络设计究竟怎么连?不能只是针对CNN算法,还要考虑大规模预训练模型对系统的要求,因为大规模预训练模型需要高带宽,低延迟的网络,因此不是简单的用网络连接起来就行。现在是多台机器训练,不可能是单节点训练,不可能是一台机器一块卡就行了,因为受限于计算性能和内存,模型很难在一台机器上做,一定是多台机器几千块卡几万块卡,这就是分布式训练,通过不同并行模式,扩展模型规模与吞吐量。 第三,体系结构感知的内存平衡设计,内存需要保证数据访问不阻塞。大模型数据量非常大,数据要放到内存里去,当多个CPU多个核心同时访问内存,比如有一台机器里面有390个核同时发送请求,那么这些在网上就会造成网络堵塞,降低吞吐量。另外还有一种情况,如果390个核都去访问某一个存储部件,那这个部件也会受不了,因此要做好负载均匀。 第四,I/O子系统平衡设计。硬盘的性能相对慢一点,但现在好在有ssd和U盘了。现在每台机器基本上有u盘,而ssd比u盘快,要做的就是把512台机器*6块SSD卡组成一个大池子。大模型一训练就是一礼拜甚至一个月,训练时间特别长,要求机器在这段时间里一礼拜都不能出错,无论硬件还是软件。 往往大规模机器基本上都会出错,比如两万块卡的系统基本每两三个小时就要出错一次,并非系统做的不好,本身就是这样的技术水平。因此这种大规模大软件一般都会采用检查点设置,假设每两个钟头出错一次,那么每执行一个半小时就停一次,把当前硬件、软件、操作系统的状况整个执行情况现场保留下来到硬盘里面。保留完又开始训练,假如出错了回到上一个检查点就行了。 合规声明:本文节选自已经入库的正式研究报告,如需PDF原文请后台留言。 - end - 欢迎加入产业交流群! 欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的产业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。 人工智能相关报告 1. ChatGPT研究框架(80页PPT) 2. 产业调研:一线专家眼中的ChatGPT 3. 产业调研:医疗认知智能技术进展 4. 海外ChatGPT公司有哪些已经落地的商业模式(深度) 5. GPT-4 即将发布,带来什么产业边际变化? 6. 百度文心一言发布会详细记录 7. 产业调研:百度文心一言与GPT-4的差距有多大? 8. 居然是微软打开了金山办公的市值空间 9. 英伟达GTC大会万字记录 10. 海外AI大模型梳理:技术革命的本源 11. 国内AI大模型梳理:三英战吕布 12. 产业调研:大模型,人工智能的暴力美学 13. 寻找AI技术潜在应用场景的方法论是什么? 14. 华为:盘古大模型全貌 15. 产业调研:商汤大模型为何惊艳? 16. 产业调研:阿里通义大模型详解 17. 人工智能大模型研究框架(120页PPT) 18. 科大讯飞星火大模型详解 19. 具身智能:人工智能的下一个浪潮(深度) 20. AI硬件产业链环节价值量拆解(深度) 21. AI服务器:烈火烹油(深度) 22. 英伟达是怎样炼成的(深度) 23. 中国人工智能产业政策详细梳理 24. 中国AI芯片企业的追击(深度) 25.AI算力研究框架(100页PPT) 26.AI+办公:海内外进展(深度) 27.AI技术在金融行业如何落地(国内实践篇) 28.AI与自动驾驶会产生什么化学反应? 29.AI加持,设计与工业软件化腐朽为神奇 30.人工智能:安全大于天(深度) 31.产业调研:华为昇腾算力最新进展 32.AI应用研究框架(120页PPT) 33.浪潮信息:AI算力龙头(深度) 34.产业调研:大模型时代AI应用如何落地? 35.产业调研:AI芯片行业真实现状 36.科大讯飞星火大模型2.0有何进展? 37.人工智能研究框架(70页PPT) 38. 一个AI爆款应用的诞生 39. 如何研究一家AI公司? 40. 格灵深瞳:技术领先到商业落地,计算机视觉场景为王(深度) 41. 一张图看懂AI公司 42. AI+自动驾驶:模糊的正确胜过精确的错误 43. 基于本轮AI行情的两点思考 44. 产业调研:智能驾驶算法解析及生成式AI应用 45. 虹软科技涅盘论(深度) 46. 微软 Windows Copilot:AI超级流量入口 47. 青云科技推出AI算力调度平台 48. 产业调研:百度昆仑芯的算力之路 49. 金山办公未来怎么做AI? 50. 拓维信息:聚焦华为算力(深度) 51. 产业调研:百度昆仑芯的算力之路 52. 从Adobe FireFly看多模态AI办公商业化落地潜力 53. 微软AI应用发展史(深度) 法律声明 本公众订阅号(计算机文艺复兴)为国泰君安证券研究所计算机研究团队依法设立并运营的微信公众订阅号。本团队负责人李沐华具备证券投资咨询(分析师)执业资格,资格证书编号为S0880519080009。本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用,如因侵权行为给国泰君安证券研究所造成任何直接或间接的损失,国泰君安证券研究所保留追究一切法律责任的权利。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。