东吴计算机【数据是AI的胜负手】
(以下内容从东吴证券《东吴计算机【数据是AI的胜负手】》研报附件原文摘录)
特别声明:《证券期货投资者适当性管理办法》、《证券经营机构投资者适当性管理实施指引(试行)》于2017年7月1日起正式实施。通过新媒体形式制作的本订阅号推送信息仅面向东吴证券客户中的专业投资者,请勿在未经授权前进行任何形式的转发。若您非东吴证券客户中的专业投资者,为保证服务质量、控制投资风险,请取消关注本订阅号,请勿订阅、接收或使用本订阅号中的任何推送信息。因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!感谢您给予的理解和配合。 评级: 增持(维持) 投资要点 GPT产生的重要能力主要来源于海量数据为基础的大模型训练。GPT-3产生了三个重要能力:语言生成、上下文学习、世界知识,这三个重要能力都源于基于海量数据的大模型预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型。海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了AI研究范式的转变。只有在训练数据量足够大时,量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”,就是以海量数据为基础产生的。 数据是AI的胜负手。语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。算法、算力和数据是AI发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。 数据要素市场建设将提供高质量数据的基础。发展自己的大模型需要以国内数据集为重要支撑,而国内目前缺乏高质量的数据集。国家数据要素市场建设将为国内提供高质量的差异化数据提供有力支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。 投资建议与相关标的:公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个环节:1)数据运营:我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。2)数据基础设施:有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电信。3)数据安全:我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。 风险提示:政策推进不及预期;行业竞争加剧 1. 数据是AI实现强大能力的基础 AI此前发展的困境之一在于只能用特定数据训练特定功能AI,没有泛化能力。在GPT3.5出现之前,人们对通用人工智能的发展非常悲观,只能通过特定的数据来训练特定功能的AI,如果要拓展其他功能,需要再通过特定数据进行训练,训练好的模型不互通,没有全面的泛化能力。 GPT产生的重要能力主要来源于海量数据为基础的大模型训练。根据符尧(2022)的归纳,GPT-3产生了三个重要能力:语言生成(根据提示词补全句子)、上下文学习(按照给定任务示例为新的测试用例生成解决方案)、世界知识(包括事实性知识和尝试),这三个重要能力都源于基于海量数据的大模型预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型(训练语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia)。 海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了AI研究范式的转变。在思维链(Chain-of-Thought)提示下,OpenAI的GPT和谷歌的PaLM大模型解题能力准确率都实现了大幅提升。这种突现能力是在模型大小大于100B时才产生的,目前只存在于大模型中。思维链(具备推理步骤)让模型具备了复杂推理能力,能够去解决鸡兔同笼等复杂的小学甚至中学数学题,协助写代码,并且在知识推理层面,不需要通过外部语料库/知识图谱检索,而可以仅仅依赖模型的内部知识,不需要精调。只有在训练数据量足够大时,量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”,或者说具备“常识”的能力,就是以海量数据为基础产生的。 数据是AI的胜负手。算法、算力和数据是AI发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。 2. 发展自己的大模型,高质量数据尤其重要 语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。语言中所包含的价值观必然和训练它的人对齐,虽然模型本身不具备价值观取向,但是训练的语料库所包含的价值观将影响模型的输出结果,例如请ChatGPT写诗表扬特朗普和拜登,得到的回答截然不同。在目前的OpenAI语料库中,中文语料只占5%,未来如果想在使用过程中符合中国特有价值取向,不被海外强势文化压缩生存空间,中国就必须发展自己的大模型。 发展自己的大模型需要以国内数据集为重要支撑,国内缺乏可训练的高质量数据。中文互联网环境下,搜索、视频等数据质量普遍低于海外,很多高价值数据都是公共数据和商业数据,尚未开放,没有成熟的可训练的数据集,未来将会对国内大模型发展产生压力。 高质量的行业私有数据价值很大。数据存在飞轮效应——使静止的飞轮转动起来,一开始必须用很大的力气推,使飞轮转得越来越快,当达到一定的速度后,飞轮所蕴含的动量和动能就会增大,便能够克服阻力维持转动。一旦打通数据采集、存储、流通的路径,随着数据的积累,产生的价值会快速提升,越来越大。这种效应在高质量的行业私有数据尤其明显。高质量的独特数据也将为国内实现差异化,开发自己的大模型提供有力支撑。 3. 数据要素:提供高质量数据的基础 国家数据局成立,数字经济从严监管向谋发展。2023年3月,国务院机构改革方案出炉,新组建国家数据局,负责协调推进数据基础制度建设、统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由发改委管理,并将网信办、发改委此前承担的部分职责划入国家数据局管理。数字经济的管理,尤其是数据的管理逐步从严监管,走向了谋发展。我们预计未来数据要素市场化建设将进入全面加速阶段。 各地密集开展公共数据开放运营试点,有望提供高质量数据资源。例如此前杭州已经明确了推进节奏:目标2023年底前,发布首批授权的公共数据资源目录,完成公共数据授权运营平台搭建;2025年底前,形成20个以上有价值、可推广的数据产品和服务。部分地区已经开始开发相关数据产品并挂网交易,如德阳首批数据元件已经在深圳数交所完成挂网交易。 数据要素市场建设将为国内训练自己的大模型提供坚实基础,未来有望成为国内寻求差异化发展的重要支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。 4. 投资建议与相关标的 AI的发展离不开数据作为基础,公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个方向: 数据运营:公共数据放开离不开第三方数据服务商提供运营支撑,建议关注此前掌握数据或者数据接口的厂商。我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。 数据基础设施:是发展AI算力、开展数据运营的基础,有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电信。 数据安全:是贯穿AI发展、数据存储流通运营全过程的重要保障需求,我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。 5.风险提示 政策推进不及预期。相关政策推进受到多种因素影响,节奏和力度可能不及预期。 行业竞争加剧。行业市场空间广阔,可能吸引更多公司参与行业竞争。 吴声计事免责声明 微信号:hbdwjsj 联系人 首席证券分析师: 王紫敬 wangzj@dwzq.com.cn 执业资格证书号码:S0600521080005 公众订阅号(微信号:吴声计事)由东吴证券研究所计算机团队设立,系本研究团队研究成果发布的唯一订阅号。 本公众号所载的信息仅面向专业投资机构,仅供在新媒体背景下研究观点的及时交流。 本订阅号不是东吴证券研究所计算机团队研究报告的发布平台,所载内容均来自于东吴证券研究所已正式发布的研究报告或对已发布报告进行的跟踪与解读,如需了解详细的报告内容或研究信息,请具体参见东吴证券研究所已发布的完整报告。 本订阅号所载内容不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见。本订阅号所载内容仅供参考之用,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主做出投资决策并自行承担风险。东吴证券研究所及本研究团队不对任何因使用本订阅号所载任何内容所引致或可能引致的损失承担任何责任。 本订阅号对所载内容保留一切法律权利。订阅人对本订阅号发布的所有内容(包括文字、图片、影像等)未经书面许可,禁止复制、转载;经授权进行复制、转载的,需注明出处为“东吴证券研究所”,且不得对本订阅号所截内容进行任何有悖原意的引用、删节或修改。 公司投资评级 买入: 预期未来6个月个股涨跌幅相对大盘在15%以上; 增持:预期未来6个月个股涨跌幅相对大盘介于5%与15%之间; 中性:预期未来 6个月个股涨跌幅相对大盘介于-5%与5%之间; 减持:预期未来 6个月个股涨跌幅相对大盘介于-15%与-5%之间; 卖出:预期未来 6个月个股涨跌幅相对大盘在-15%以下。 行业投资评级 增持:预期未来6个月内,行业指数相对强于大盘5%以上; 中性: 预期未来6个月内,行业指数相对大盘-5%与5%; 减持:预期未来6个月内,行业指数相对弱于大盘5%以上。 东吴证券研究所 苏州工业园区星阳街5号邮政编码:215021 传真:(0512)62938527 公司网址:http://www.dwzq.com.cn
特别声明:《证券期货投资者适当性管理办法》、《证券经营机构投资者适当性管理实施指引(试行)》于2017年7月1日起正式实施。通过新媒体形式制作的本订阅号推送信息仅面向东吴证券客户中的专业投资者,请勿在未经授权前进行任何形式的转发。若您非东吴证券客户中的专业投资者,为保证服务质量、控制投资风险,请取消关注本订阅号,请勿订阅、接收或使用本订阅号中的任何推送信息。因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!感谢您给予的理解和配合。 评级: 增持(维持) 投资要点 GPT产生的重要能力主要来源于海量数据为基础的大模型训练。GPT-3产生了三个重要能力:语言生成、上下文学习、世界知识,这三个重要能力都源于基于海量数据的大模型预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型。海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了AI研究范式的转变。只有在训练数据量足够大时,量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”,就是以海量数据为基础产生的。 数据是AI的胜负手。语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。算法、算力和数据是AI发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。 数据要素市场建设将提供高质量数据的基础。发展自己的大模型需要以国内数据集为重要支撑,而国内目前缺乏高质量的数据集。国家数据要素市场建设将为国内提供高质量的差异化数据提供有力支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。 投资建议与相关标的:公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个环节:1)数据运营:我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。2)数据基础设施:有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电信。3)数据安全:我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。 风险提示:政策推进不及预期;行业竞争加剧 1. 数据是AI实现强大能力的基础 AI此前发展的困境之一在于只能用特定数据训练特定功能AI,没有泛化能力。在GPT3.5出现之前,人们对通用人工智能的发展非常悲观,只能通过特定的数据来训练特定功能的AI,如果要拓展其他功能,需要再通过特定数据进行训练,训练好的模型不互通,没有全面的泛化能力。 GPT产生的重要能力主要来源于海量数据为基础的大模型训练。根据符尧(2022)的归纳,GPT-3产生了三个重要能力:语言生成(根据提示词补全句子)、上下文学习(按照给定任务示例为新的测试用例生成解决方案)、世界知识(包括事实性知识和尝试),这三个重要能力都源于基于海量数据的大模型预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型(训练语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia)。 海量数据为基础的大模型训练产生了突现能力(Emergent Ability),带来了AI研究范式的转变。在思维链(Chain-of-Thought)提示下,OpenAI的GPT和谷歌的PaLM大模型解题能力准确率都实现了大幅提升。这种突现能力是在模型大小大于100B时才产生的,目前只存在于大模型中。思维链(具备推理步骤)让模型具备了复杂推理能力,能够去解决鸡兔同笼等复杂的小学甚至中学数学题,协助写代码,并且在知识推理层面,不需要通过外部语料库/知识图谱检索,而可以仅仅依赖模型的内部知识,不需要精调。只有在训练数据量足够大时,量变才能引起质变。GPT相比于此前模型所具备的“泛化能力”,或者说具备“常识”的能力,就是以海量数据为基础产生的。 数据是AI的胜负手。算法、算力和数据是AI发展的三大重要基础。展望未来,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶,而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,因此,我们认为未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。 2. 发展自己的大模型,高质量数据尤其重要 语言包含价值取向,未来想要不被强势文化压缩生存空间,中国必须发展自己的大模型。语言中所包含的价值观必然和训练它的人对齐,虽然模型本身不具备价值观取向,但是训练的语料库所包含的价值观将影响模型的输出结果,例如请ChatGPT写诗表扬特朗普和拜登,得到的回答截然不同。在目前的OpenAI语料库中,中文语料只占5%,未来如果想在使用过程中符合中国特有价值取向,不被海外强势文化压缩生存空间,中国就必须发展自己的大模型。 发展自己的大模型需要以国内数据集为重要支撑,国内缺乏可训练的高质量数据。中文互联网环境下,搜索、视频等数据质量普遍低于海外,很多高价值数据都是公共数据和商业数据,尚未开放,没有成熟的可训练的数据集,未来将会对国内大模型发展产生压力。 高质量的行业私有数据价值很大。数据存在飞轮效应——使静止的飞轮转动起来,一开始必须用很大的力气推,使飞轮转得越来越快,当达到一定的速度后,飞轮所蕴含的动量和动能就会增大,便能够克服阻力维持转动。一旦打通数据采集、存储、流通的路径,随着数据的积累,产生的价值会快速提升,越来越大。这种效应在高质量的行业私有数据尤其明显。高质量的独特数据也将为国内实现差异化,开发自己的大模型提供有力支撑。 3. 数据要素:提供高质量数据的基础 国家数据局成立,数字经济从严监管向谋发展。2023年3月,国务院机构改革方案出炉,新组建国家数据局,负责协调推进数据基础制度建设、统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由发改委管理,并将网信办、发改委此前承担的部分职责划入国家数据局管理。数字经济的管理,尤其是数据的管理逐步从严监管,走向了谋发展。我们预计未来数据要素市场化建设将进入全面加速阶段。 各地密集开展公共数据开放运营试点,有望提供高质量数据资源。例如此前杭州已经明确了推进节奏:目标2023年底前,发布首批授权的公共数据资源目录,完成公共数据授权运营平台搭建;2025年底前,形成20个以上有价值、可推广的数据产品和服务。部分地区已经开始开发相关数据产品并挂网交易,如德阳首批数据元件已经在深圳数交所完成挂网交易。 数据要素市场建设将为国内训练自己的大模型提供坚实基础,未来有望成为国内寻求差异化发展的重要支撑。随着公共数据逐步开放运营,垂直行业数据由严监管向谋发展转变,数据要素市场化发展将使得算法厂商能够获得质量较高的公共和行业数据,提高训练质量和效率,进而为国内开发符合自身发展和价值观的大模型提供支撑。 4. 投资建议与相关标的 AI的发展离不开数据作为基础,公共和垂直行业数据敏感性高,需要具备央国企背景的厂商参与。我们看好以下三个方向: 数据运营:公共数据放开离不开第三方数据服务商提供运营支撑,建议关注此前掌握数据或者数据接口的厂商。我们预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等。 数据基础设施:是发展AI算力、开展数据运营的基础,有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电信。 数据安全:是贯穿AI发展、数据存储流通运营全过程的重要保障需求,我们看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。 5.风险提示 政策推进不及预期。相关政策推进受到多种因素影响,节奏和力度可能不及预期。 行业竞争加剧。行业市场空间广阔,可能吸引更多公司参与行业竞争。 吴声计事免责声明 微信号:hbdwjsj 联系人 首席证券分析师: 王紫敬 wangzj@dwzq.com.cn 执业资格证书号码:S0600521080005 公众订阅号(微信号:吴声计事)由东吴证券研究所计算机团队设立,系本研究团队研究成果发布的唯一订阅号。 本公众号所载的信息仅面向专业投资机构,仅供在新媒体背景下研究观点的及时交流。 本订阅号不是东吴证券研究所计算机团队研究报告的发布平台,所载内容均来自于东吴证券研究所已正式发布的研究报告或对已发布报告进行的跟踪与解读,如需了解详细的报告内容或研究信息,请具体参见东吴证券研究所已发布的完整报告。 本订阅号所载内容不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见。本订阅号所载内容仅供参考之用,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主做出投资决策并自行承担风险。东吴证券研究所及本研究团队不对任何因使用本订阅号所载任何内容所引致或可能引致的损失承担任何责任。 本订阅号对所载内容保留一切法律权利。订阅人对本订阅号发布的所有内容(包括文字、图片、影像等)未经书面许可,禁止复制、转载;经授权进行复制、转载的,需注明出处为“东吴证券研究所”,且不得对本订阅号所截内容进行任何有悖原意的引用、删节或修改。 公司投资评级 买入: 预期未来6个月个股涨跌幅相对大盘在15%以上; 增持:预期未来6个月个股涨跌幅相对大盘介于5%与15%之间; 中性:预期未来 6个月个股涨跌幅相对大盘介于-5%与5%之间; 减持:预期未来 6个月个股涨跌幅相对大盘介于-15%与-5%之间; 卖出:预期未来 6个月个股涨跌幅相对大盘在-15%以下。 行业投资评级 增持:预期未来6个月内,行业指数相对强于大盘5%以上; 中性: 预期未来6个月内,行业指数相对大盘-5%与5%; 减持:预期未来6个月内,行业指数相对弱于大盘5%以上。 东吴证券研究所 苏州工业园区星阳街5号邮政编码:215021 传真:(0512)62938527 公司网址:http://www.dwzq.com.cn
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。