HUATECH洞见丨陈齐彦:从局部创新到大模型崛起的开源故事
(以下内容从华泰证券《HUATECH洞见丨陈齐彦:从局部创新到大模型崛起的开源故事》研报附件原文摘录)
文章开始 编者按:云原生为大语言模型的开发与创新提供了基础设施。在华泰证券举办“AGI 重构之路”创新科技论坛上,「DaoCloud 道客」创始人兼首席执行官陈齐彦结合DaoCloud自身的经历,指出包括大模型在内许多新技术的最终源头都在开源世界里,在云原生的开源生态里有一种庞大的生产力。 陈齐彦 「DaoCloud 道客」创始人兼首席执行官 在开源世界里的AGI技术源头 AGI的创新方向和数字原生的终极愿景是高度一致的。随着AGI的发展,数据成为核心生产力要素,要求在机器和数据之间建立新的 IT 架构,这实际上是构建一种新的数字化生产关系,比如ChatGPT在聊天中努力伪装成人类,就是硅基智能在学习进入碳基智能世界的方式。任何企业在将大模型技术应用到自身发展、迈向未来人工智能时,都要搭建新的生产关系,在技术路径的选择中会遇到很多问题。比如,如何满足超大模型对硬件和资源的需求、如何解决异构算力兼容的问题、如何高效合理分配资源和调度任务,还有隐私保护、数据风险和监管合规等诸多安全问题。 面对上述问题,产业界如何破局呢?今天我们对很多新技术的探知和了解,其实是有底层逻辑的,新技术有它的供应链,而最终源头都在开源世界里。比如去年,DaoCloud的技术团队在维护 Kubernetes(指一项开源应用,用于管理云平台中多个主机上的容器化应用) 上游代码时,遇到一个团队做 Ray(指一个开源的人工智能框架,为高性能的分布式执行引擎),交流了很多关于大数据架构的语言深化、传统AI 训练模型等问题。当时我们无法理解这些需求背后的场景是什么,但当开发Ray的公司 Anyscale变成了“网红”公司后,我们才意识到他们去年提出探讨,是因为在为 Open AI 开发基础设施平台时,运用到了DaoCloud维护的 Kubernetes 模块,这样一个模块最终配合Ray 蜕变成一个高性能的分布式执行引擎,成为Open AI 成功路上不可或缺的组成部分。 在大模型还没有成功时,很多创新的技术可能只是一些零碎的局部创新,使用场景并不明确;但当大模型成功时,大家才会发现这些技术正是大模型爆发成功的一环,这些技术的创新演进与大模型的发展是相辅相成的。 通往大模型的多元新技术路径 通往大模型的道路上有很多新的技术路径。“暴力美学”式的大模型用极致的算力和参数,试图让硅基智能拥有无所不知的语言能力,另外还有一些微调大模型和开源模型的选择。每个大模型都有自己的独特性和局限性。在不断理解大模型的架构和底层基础设施能力后,也许企业可以找到更适合自己的可行路径,比如对To B的企业,拥有边界感的语言模型会更符合实际使用场景的创新需求。那么如何驾驭好大模型能力的同时,也和企业的私有化架构结合呢? 随着 Meta 把 LLaMA(指Meta公司开发的“羊驼”大语言模型) 开源出来,产业界在大模型的微调方面做了很多尝试和创新,基于大模型,只要用非常有限的算力、非常低的成本投入,就能训练出专属大模型,在技术、工程和效率上找到了非常好的平衡点,“羊驼家族” 因此迎来了大爆发。 其次,不得不提 LangChain(指围绕大模型的一个开源应用开发框架)。通过 LangChain 调用大模型,可以与企业的知识库相结合,让企业打造自己的专业聊天模型。这条路径更容易实现,既能充分发挥大模型的创造力,又能适用大量的专业应用场景,比较适配 To B 企业的场景化应用。 数据是训练大模型的原材料,针对具体场景,数据的覆盖和质量至关重要。训练模型时,需要关注敏感数据的保护和安全合规,并有效管理大量的数据和标签,不断进行测试和模型的迭代,不断提升模型的专业化程度,当精准度的阈值可以到达 99% 以上的时候,就可以将企业场景与大模型融合应用,实现大模型向企业生产力的转型。 综上所述,在一个现象级应用的背后会有很多问题和需求。就大模型来说,需要去解决很多基础设施的能力问题,包括系统在高速连接情况下的弹性及高可用性、算力基础设施和应用需求之间的调度以及在跨域、跨网络、跨集群和跨云情况下的计算分布问题等,而这些能力都在云原生的世界里被找到、被实现了。很多技术的发展方向并不是一开始就设计好的,每个人在自己擅长的赛道里解决各自的问题,只要技术符合发展趋势,我们都会成为未来问题中的一个最优解。在数字科技时代的浪潮下,只有以更开放的心态、更宏观的视野,拥抱更多开放技术,才能将未来的路走得更广阔。 我个人对未来大模型在开源路径上的繁荣抱有极大的乐观,要知道在云原生的开源生态里有一种庞大的生产力。根据 Linux基金会的统计数据,围绕基础软件开发的开源贡献,相当于 260 亿美金的生产力价值。在这样庞大生产力的加持下,未来在云原生开源世界里将会诞生出更多新兴技术。云原生将帮助企业不仅解决数字基础设施问题,也会是推动迈向通用人工智能的关键一步。 你可能会感兴趣 HUATECH洞见 | 范承工:突破互联极限,CXL叩开大内存时代 华泰证券创新科技论坛:汇聚开放生态之力,把握AGI金融创新机遇 专业+数据+场景:同构AI时代金融核心竞争力 华泰证券举办数字金融论坛:科技驱动强化金融服务创造力 文章结束
文章开始 编者按:云原生为大语言模型的开发与创新提供了基础设施。在华泰证券举办“AGI 重构之路”创新科技论坛上,「DaoCloud 道客」创始人兼首席执行官陈齐彦结合DaoCloud自身的经历,指出包括大模型在内许多新技术的最终源头都在开源世界里,在云原生的开源生态里有一种庞大的生产力。 陈齐彦 「DaoCloud 道客」创始人兼首席执行官 在开源世界里的AGI技术源头 AGI的创新方向和数字原生的终极愿景是高度一致的。随着AGI的发展,数据成为核心生产力要素,要求在机器和数据之间建立新的 IT 架构,这实际上是构建一种新的数字化生产关系,比如ChatGPT在聊天中努力伪装成人类,就是硅基智能在学习进入碳基智能世界的方式。任何企业在将大模型技术应用到自身发展、迈向未来人工智能时,都要搭建新的生产关系,在技术路径的选择中会遇到很多问题。比如,如何满足超大模型对硬件和资源的需求、如何解决异构算力兼容的问题、如何高效合理分配资源和调度任务,还有隐私保护、数据风险和监管合规等诸多安全问题。 面对上述问题,产业界如何破局呢?今天我们对很多新技术的探知和了解,其实是有底层逻辑的,新技术有它的供应链,而最终源头都在开源世界里。比如去年,DaoCloud的技术团队在维护 Kubernetes(指一项开源应用,用于管理云平台中多个主机上的容器化应用) 上游代码时,遇到一个团队做 Ray(指一个开源的人工智能框架,为高性能的分布式执行引擎),交流了很多关于大数据架构的语言深化、传统AI 训练模型等问题。当时我们无法理解这些需求背后的场景是什么,但当开发Ray的公司 Anyscale变成了“网红”公司后,我们才意识到他们去年提出探讨,是因为在为 Open AI 开发基础设施平台时,运用到了DaoCloud维护的 Kubernetes 模块,这样一个模块最终配合Ray 蜕变成一个高性能的分布式执行引擎,成为Open AI 成功路上不可或缺的组成部分。 在大模型还没有成功时,很多创新的技术可能只是一些零碎的局部创新,使用场景并不明确;但当大模型成功时,大家才会发现这些技术正是大模型爆发成功的一环,这些技术的创新演进与大模型的发展是相辅相成的。 通往大模型的多元新技术路径 通往大模型的道路上有很多新的技术路径。“暴力美学”式的大模型用极致的算力和参数,试图让硅基智能拥有无所不知的语言能力,另外还有一些微调大模型和开源模型的选择。每个大模型都有自己的独特性和局限性。在不断理解大模型的架构和底层基础设施能力后,也许企业可以找到更适合自己的可行路径,比如对To B的企业,拥有边界感的语言模型会更符合实际使用场景的创新需求。那么如何驾驭好大模型能力的同时,也和企业的私有化架构结合呢? 随着 Meta 把 LLaMA(指Meta公司开发的“羊驼”大语言模型) 开源出来,产业界在大模型的微调方面做了很多尝试和创新,基于大模型,只要用非常有限的算力、非常低的成本投入,就能训练出专属大模型,在技术、工程和效率上找到了非常好的平衡点,“羊驼家族” 因此迎来了大爆发。 其次,不得不提 LangChain(指围绕大模型的一个开源应用开发框架)。通过 LangChain 调用大模型,可以与企业的知识库相结合,让企业打造自己的专业聊天模型。这条路径更容易实现,既能充分发挥大模型的创造力,又能适用大量的专业应用场景,比较适配 To B 企业的场景化应用。 数据是训练大模型的原材料,针对具体场景,数据的覆盖和质量至关重要。训练模型时,需要关注敏感数据的保护和安全合规,并有效管理大量的数据和标签,不断进行测试和模型的迭代,不断提升模型的专业化程度,当精准度的阈值可以到达 99% 以上的时候,就可以将企业场景与大模型融合应用,实现大模型向企业生产力的转型。 综上所述,在一个现象级应用的背后会有很多问题和需求。就大模型来说,需要去解决很多基础设施的能力问题,包括系统在高速连接情况下的弹性及高可用性、算力基础设施和应用需求之间的调度以及在跨域、跨网络、跨集群和跨云情况下的计算分布问题等,而这些能力都在云原生的世界里被找到、被实现了。很多技术的发展方向并不是一开始就设计好的,每个人在自己擅长的赛道里解决各自的问题,只要技术符合发展趋势,我们都会成为未来问题中的一个最优解。在数字科技时代的浪潮下,只有以更开放的心态、更宏观的视野,拥抱更多开放技术,才能将未来的路走得更广阔。 我个人对未来大模型在开源路径上的繁荣抱有极大的乐观,要知道在云原生的开源生态里有一种庞大的生产力。根据 Linux基金会的统计数据,围绕基础软件开发的开源贡献,相当于 260 亿美金的生产力价值。在这样庞大生产力的加持下,未来在云原生开源世界里将会诞生出更多新兴技术。云原生将帮助企业不仅解决数字基础设施问题,也会是推动迈向通用人工智能的关键一步。 你可能会感兴趣 HUATECH洞见 | 范承工:突破互联极限,CXL叩开大内存时代 华泰证券创新科技论坛:汇聚开放生态之力,把握AGI金融创新机遇 专业+数据+场景:同构AI时代金融核心竞争力 华泰证券举办数字金融论坛:科技驱动强化金融服务创造力 文章结束
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。