首页 > 公众号研报 > HUATECH洞见丨大模型推动网络技术革新:迈向统一开放,突破算力瓶颈

HUATECH洞见丨大模型推动网络技术革新:迈向统一开放,突破算力瓶颈

作者:微信公众号【华泰证券频道】/ 发布时间:2023-06-30 / 悟空智库整理
(以下内容从华泰证券《HUATECH洞见丨大模型推动网络技术革新:迈向统一开放,突破算力瓶颈》研报附件原文摘录)
  文章开始 编者按:AGI对集群算力空前庞大的需求为网络通信技术带来了诸多机会与挑战。在华泰证券“AGI 重构之路”创新科技论坛上,来自不同类型企业的网络层专家共同探讨如何通过新的网络通讯技术提高集群计算能力。 王轶 篆芯联合创始人、CTO 开放的以太网生态将推动大模型走向普惠 所谓“要致富先修路”,网络就像交通运输,对AI集群计算效率至关重要。早期的网络就像马车时代的公路,主要就是马车在上面跑,马车之间的“货物转交”依靠多协议路由器实现;随后变成了高速公路,兼容不同类型的“车辆”,通过大量修建这样的公路,希望速度越快越好;现在则像高铁铁路,承载着大量“数据”乘客的高铁在不同城市之间频繁往来,通过整个铁路的全局调度、而不只是司机自己操控,实现运输效率的极大提升——这就是依靠统一的通讯协议,自上而下形成优化,让整体的算法被用到极致。所以网络不是只管运输,还要知道在运输什么,需要灵活可编程、可视化,提供网络状态信息帮助中间层和应用层进行高效调度。 AGI大模型的出现对网络通信提出了新的需求。在大模型运算过程中,每张卡训练完成后需要数据传输,这一过程中计算卡的算力是闲置的,这会影响整个大模型整体的运算效率,需要网络有一种新的调度方法去应对。当计算网络大到一定规模的时候,只有以太网有足够的经验和创新积累支撑大规模的网络传输。而且以太网一直是开放的生态,有大量公司在这个开放生态中进行大大小小的创新。目前,AGI和大模型都还在发展早期,未来一定会被广泛、规模化应用,实现普惠,这就会带来成本问题。而以太网的生态足够开放,其成本也比其他网络方案低得多,大概只有IB网络(指按照开放标准InfiniBand规范设计开发的网络)的几分之一。因此,以太网很有可能即将进入一个新的发展机遇期。 江卓 火山引擎网络优化专家 标准化与开放可编程或成为网络发展重点 大模型训练与网络技术的发展相辅相成。由于大模型需要多台机器互联,且规模远超以往,势必需要借助高吞吐、低延迟的网络通信技术。当计算规模较小时,我们对吞吐和延时可能并不敏感,但伴随规模不断扩大,微小的差距会被放大,必然需要更加精细的网络调控和流量控制。大模型对大规模高速通信网络的需求也为网络技术的迭代提供了新场景,现在传统的100G网卡已经不能满足需求,需要200G、乃至400G的网卡,而且在软硬件协同方面会进一步演进。另外,大模型场景下的大规模分布式训练中,稳定性和性能一样重要,需要为上层的训练任务保持稳定、高速、低延迟的通讯,避免卡死或者网络性能不符合预期等问题。 放眼未来,标准化与开放可编程或许是网络发展的重点。标准化方面,随着软硬一体化的发展,软件的功能可以部分由硬件实现,虽然提升了处理性能,也造成了供应商单一、缺少统一标准化协议的问题。这有可能影响整个系统生态的兼容性,我们正尝试与更多网卡厂商合作、并加入标准化组织,希望多方共同推动标准化进程。开放可编程方面,网卡虽然很小,但同样具有计算和存储的能力,而这些能力在网卡带宽没有用满时会被“闲置”。在未来,是否可以通过打造开放性的网卡和交换机,让这一部分能力更好地服务业务需求?这一点同样值得期待。 井有浩 Juniper中国区CTO 从“存算一体”迈向“通算一体” AGI时代会这么快到来出乎很多人的意料。此前人们认为,AI对To B客户的价值更多是“降本增效”,现在大家都清楚地认识到对算力和算力网络的强烈需求,算力就是生产力。 从网络端口密度来算,当前最大的AI集群节点规模趋近800G-1.6T规模,这已经构成了巨大的通信压力。而未来我们面临的可能是几万片GPU、几十万片CPU共用一个网络的需求,这时如果只是依靠低延迟、大带宽、低功耗的芯片来搭建网络,可能出现的长尾延迟和丢包情况会严重影响到算力资源利用率。这就需要从“存算一体”向“通算一体”迈进,让网络成为核心组件,追求大模型下极致的网络性能。 值得注意的是,从芯片设计的角度,过强的专业性会导致通用性的丧失,因此有时不能太过聚焦某一种场景。从目前来看,由于ChatGPT等大模型都有许多内嵌的安全性、可控性缺陷,未来的AI大模型还会不断变化,这就需要芯片具有软件可编程能力,有足够的调整空间和灵活度,来应对未来的生态和需求的变化。 宋晓光 华泰证券信息技术部 自营业务研发中心负责人 应用友好才是技术的终局 证券交易需要对海量数据进行实时处理,对存算网络的要求非常高。一方面,交易系统、风控和策略计算都需要解决通信低时延的问题,另一方面,证券交易对系统的稳定性的要求也尤其突出。而传统纯软件的解决方案已经越来越不能满足高要求、高标准的业务场景,这就需要结合更多的硬件,以软硬结合的方式来解决相关应用场景中的问题。 从应用的角度来看,一项技术或者一套解决方案,除了本身功能和性能是否达标之外,更要关注其对应用是否友好、周边生态是否完善。比如协议是否标准、使用人员和维护人员的学习成本是否高昂、稳定性是否良好等。从传统的计算机体系架构走向面向未来的分布式的体系架构的路上,必然会有很多不同的创新,而更好融入生态、实现应用友好才是技术的终局。 我们期待在金融场景下,结合底层网络、云原生、AI等技术,能够打造出更新更好、更快、更稳定的解决方案。 你可能会感兴趣 HUATECH洞见丨陈齐彦:从局部创新到大模型崛起的开源故事 HUATECH洞见 | 范承工:突破互联极限,CXL叩开大内存时代 华泰证券创新科技论坛:汇聚开放生态之力,把握AGI金融创新机遇 文章结束

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。