欢迎访问悟空智库——专业行业公司研究报告文档大数据平台!
研报附件
国盛证券-通信行业点评:算力调优——未来算力网络的重要拼图-230711.pdf
大小:285K
立即下载 在线阅读

国盛证券-通信行业点评:算力调优——未来算力网络的重要拼图-230711

国盛证券-通信行业点评:算力调优——未来算力网络的重要拼图-230711
文本预览:

《国盛证券-通信行业点评:算力调优——未来算力网络的重要拼图-230711(2页).pdf》由会员分享,可在线阅读,更多相关《国盛证券-通信行业点评:算力调优——未来算力网络的重要拼图-230711(2页).pdf(2页精品完整版)》请在悟空智库报告文库上搜索。

(以下内容从国盛证券《通信行业点评:算力调优——未来算力网络的重要拼图》研报附件原文摘录)
  算力资源有限, 调度优化问题紧迫。 OpenAI 此前在技术博客《Scaling Kubernetes to2,500 nodes》 中提到, OpenAI k8s 集群从 500 nodes 扩展到 2500 nodes 时遇到诸多存储、网络和资源初始化问题, 通过可视化监控工具 Datadog 发现 ETCD(一种Key-Value 存储服务) 写数据存在几百毫秒延迟, list API 被频繁调用、 Fluentd 和DataDog 频繁侵占资源等问题。   什么是算力调度? 在云计算中, 资源调度是一个非确定性多项式优化问题,往往会出现“拆东墙补西墙” 这样的情况,因此云计算的算力调度必须考虑每个算力资源请求的需求边界, 比如 OpenAI 团队使用“balloons” 占位策略解决资源排队问题:用一个低优先级 pod 占着整个节点,要用节点的时候被自动驱逐掉;使用污点策略手动分配每个训练请求能使用的节点。   GPU 超算集群中, 暴露出的不只是算力调度问题。 在此前对英伟达 AI 超算的研究中,我们的结论是: 通信网络是制约数据中心算力高低的关键因素。在多线程并行计算下,通信成为制约算力的短板,只要有一条交换链路出现网络阻塞或丢包,就会产生 I/O 延迟;又如 GH200 新增显存互联功能, 我们认为, 相对于无显存互联的超算, GH200 对 API server 的并发访问量是指数级增长,将对硬件资源调度提出更高挑战。   多点硬件部署监控效率更高。 我们注意到, OpenAI 在针对网络监控进行优化时发现Prometheus 这类监控系统时常会导致 OOM( Out of Memory, 内存溢出) ,从而不得不削减查询频率;每次初始化 pod, Prometheus 都要重写 WAL( Write-aheadlogging,预写式日志) 拉长启动时间。我们认为,以上问题都可以通过嵌入式的多点硬件层监控系统避免上述问题。 我们认为, 在传统的计算式和 I/O 式云计算中,外部串接监控服务器即可满足监控需求,而 GPU 集群时代, 需要并接部署“联邦集群” 并进行不同监控服务器的功能划分,最后进行北向汇聚, 有望提升监控采集效率、降低超算本身的资源侵占。   网络可视化技术在国内外均处于探索迭代过程中,国内相关厂商的潜在机会巨大。在北美, 目前主流的监控工具是 Netscout、 Prometheus、 Datadog 等, 都是基于在超算本地化部署; 但在多点硬件部署的 AI 超算中,软硬件结合的厂商成长性有望更为充分, 经过多年经验积累的相关国内 DPI 厂商, 形成了高容量下的数据监控能力,有望成为全球算力调优的上游关键角色。   投资建议:   1)重视 GPU 超算集群中交换网络性能的重要性,而光通信是现有技术下几乎无法替代的交换网络方案, 关注光通信: 中际旭创、新易盛、天孚通信、太辰光、腾景科技、德科立、联特科技、华工科技、源杰科技、剑桥科技; 算力设备: 中兴通讯、紫光股份、锐捷网络、菲菱科思、恒为科技、工业富联、寒武纪、震有科技。   2)重视网络可视化及算力资源调优策略的软硬件厂商,该品种目前存在较大预期差,关注恒为科技、 浩瀚深度、中新赛克。   风险提示: AI 发展不及预期,算力需求不及预期
展开>> 收起<<

#免责声明#

本站页面所示及下载的一切研究报告、文档和内容信息皆为本站用户上传分享,仅限用于个人学习、收藏和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。如若内容侵犯了您的权利,请参见底部免责申明联系我们及时删除处理。