【互联网传媒】中文数字内容成为重要稀缺资源,可用作AI大模型语料库——AIGC行业跟踪报告(四)(付天姿)
(以下内容从光大证券《【互联网传媒】中文数字内容成为重要稀缺资源,可用作AI大模型语料库——AIGC行业跟踪报告(四)(付天姿)》研报附件原文摘录)
点击上方“光大证券研究”可以订阅哦 点击注册小程序 查看完整报告 特别申明: 本订阅号中所涉及的证券研究信息由光大证券研究所编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究信息和研究观点的沟通交流。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相关人员为光大证券的客户。 【互联网传媒】中文数字内容成为重要稀缺资源,可用作AI大模型语料库——AIGC行业跟踪报告(四) 报告摘要 事件: 3月28日,中国信息通信研究院现启动大模型技术及应用基准构建工作,针对当前主流数据集和评估基准多以英文为主,缺少中文特点、文化以及难以满足关键行业应用选型需求等问题,联合业界主流创新主体共同构建一套涵盖多任务领域、多测评维度的基准及测评工具AISHPerf-LargeModel,推动我国大模型技术及应用的引领创新。 点评: 中文数字内容将成为重要稀缺资源,用于国内AI大模型预训练语料库 1)近期国内外巨头纷纷披露AI大模型;在AI领域3大核心是数据、算力、算法,我们认为,数据将成为如ChatGPT等AI大模型的核心竞争力,高质量的数据资源可让数据变成资产、变成核心生产力,AI模型的生产内容高度依赖源头数据。2)根据凤凰网周刊,ChatGPT的中文答案不准确主要在于目前中文语料学习库少,ChatGPT中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%。3)中文公开语料远不足英文,这也成为“中国版ChatGPT”的痛点。微软(中国)首席技术官韦青在3月23日举行的一场行业会议上指出,“ChatGPT能够提炼的语料是开放的、共享的和免费的”,而“中国版ChatGPT”所需要的大量高质量中文数据资源(包括政务数据、商业数据、科研数据、中文语料等)大多被存在各家企业或机构的“后花园”里无法共享,“这不是一两间公司能够解决的问题,需要全社会密切关注并大力投入的公共知识基础设施”。4)政策进一步重视数据核心资产建设。据日经亚洲报道,从4月1日起,部分外国用户对中国大陆知识基础设施工程的访问将被限制,其中包括知网。 网文平台深耕文化数字产业,海量正版中文数字内容构筑核心竞争壁垒 1)海量数据:网文平台拥有的中文文字字数超10000亿字,内容品类包含小说类、科普类、社会类、经管类、法律类、教育教材类等等。2)高质量数据:网文平台拥有的数字内容经过市场长期校验,已形成高质量的数据内容库,而高质量的数据可大幅提升模型训练效果,缩短学习时间和提升学习质量,让AI模型产出内容稳定;3)正版版权:网文平台高度重视知识产权保护工作,可为AI模型公司提供拥有版权的数据集用于训练;4)完整的各类型商业生态链:平台拥有的网络原创驻站作者可实时反馈最新数据,提供最贴近市场和用户的最新数据,让AI模型持续更新学习。 网文公司拥有广泛应用场景,AIGC加速形成从内容到商业化落地的闭环 网络文学为最大的内容源头,当前大量优质网文IP尚未被挖掘和开发变现,而AIGC加快发展产能,推动海量IP跨模态变现。AI技术成果可应用在文字辅助创作、实时对话互动、动漫画及影视创作等场景,服务广大内容创作者,打通IP衍生全产业链商业变现。 风险提示:AI技术研发和产品迭代不及预期风险;AI行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。 发布日期:2023-03-29 免责声明 本订阅号是光大证券股份有限公司研究所(以下简称“光大证券研究所”)依法设立、独立运营的官方唯一订阅号。其他任何以光大证券研究所名义注册的、或含有“光大证券研究”、与光大证券研究所品牌名称等相关信息的订阅号均不是光大证券研究所的官方订阅号。 本订阅号所刊载的信息均基于光大证券研究所已正式发布的研究报告,仅供在新媒体形势下研究信息、研究观点的及时沟通交流,其中的资料、意见、预测等,均反映相关研究报告初次发布当日光大证券研究所的判断,可能需随时进行调整,本订阅号不承担更新推送信息或另行通知的义务。如需了解详细的证券研究信息,请具体参见光大证券研究所发布的完整报告。 在任何情况下,本订阅号所载内容不构成任何投资建议,任何投资者不应将本订阅号所载内容作为投资决策依据,本公司也不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。 本订阅号所载内容版权仅归光大证券股份有限公司所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用。如因侵权行为给光大证券造成任何直接或间接的损失,光大证券保留追究一切法律责任的权利。
点击上方“光大证券研究”可以订阅哦 点击注册小程序 查看完整报告 特别申明: 本订阅号中所涉及的证券研究信息由光大证券研究所编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究信息和研究观点的沟通交流。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相关人员为光大证券的客户。 【互联网传媒】中文数字内容成为重要稀缺资源,可用作AI大模型语料库——AIGC行业跟踪报告(四) 报告摘要 事件: 3月28日,中国信息通信研究院现启动大模型技术及应用基准构建工作,针对当前主流数据集和评估基准多以英文为主,缺少中文特点、文化以及难以满足关键行业应用选型需求等问题,联合业界主流创新主体共同构建一套涵盖多任务领域、多测评维度的基准及测评工具AISHPerf-LargeModel,推动我国大模型技术及应用的引领创新。 点评: 中文数字内容将成为重要稀缺资源,用于国内AI大模型预训练语料库 1)近期国内外巨头纷纷披露AI大模型;在AI领域3大核心是数据、算力、算法,我们认为,数据将成为如ChatGPT等AI大模型的核心竞争力,高质量的数据资源可让数据变成资产、变成核心生产力,AI模型的生产内容高度依赖源头数据。2)根据凤凰网周刊,ChatGPT的中文答案不准确主要在于目前中文语料学习库少,ChatGPT中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%。3)中文公开语料远不足英文,这也成为“中国版ChatGPT”的痛点。微软(中国)首席技术官韦青在3月23日举行的一场行业会议上指出,“ChatGPT能够提炼的语料是开放的、共享的和免费的”,而“中国版ChatGPT”所需要的大量高质量中文数据资源(包括政务数据、商业数据、科研数据、中文语料等)大多被存在各家企业或机构的“后花园”里无法共享,“这不是一两间公司能够解决的问题,需要全社会密切关注并大力投入的公共知识基础设施”。4)政策进一步重视数据核心资产建设。据日经亚洲报道,从4月1日起,部分外国用户对中国大陆知识基础设施工程的访问将被限制,其中包括知网。 网文平台深耕文化数字产业,海量正版中文数字内容构筑核心竞争壁垒 1)海量数据:网文平台拥有的中文文字字数超10000亿字,内容品类包含小说类、科普类、社会类、经管类、法律类、教育教材类等等。2)高质量数据:网文平台拥有的数字内容经过市场长期校验,已形成高质量的数据内容库,而高质量的数据可大幅提升模型训练效果,缩短学习时间和提升学习质量,让AI模型产出内容稳定;3)正版版权:网文平台高度重视知识产权保护工作,可为AI模型公司提供拥有版权的数据集用于训练;4)完整的各类型商业生态链:平台拥有的网络原创驻站作者可实时反馈最新数据,提供最贴近市场和用户的最新数据,让AI模型持续更新学习。 网文公司拥有广泛应用场景,AIGC加速形成从内容到商业化落地的闭环 网络文学为最大的内容源头,当前大量优质网文IP尚未被挖掘和开发变现,而AIGC加快发展产能,推动海量IP跨模态变现。AI技术成果可应用在文字辅助创作、实时对话互动、动漫画及影视创作等场景,服务广大内容创作者,打通IP衍生全产业链商业变现。 风险提示:AI技术研发和产品迭代不及预期风险;AI行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。 发布日期:2023-03-29 免责声明 本订阅号是光大证券股份有限公司研究所(以下简称“光大证券研究所”)依法设立、独立运营的官方唯一订阅号。其他任何以光大证券研究所名义注册的、或含有“光大证券研究”、与光大证券研究所品牌名称等相关信息的订阅号均不是光大证券研究所的官方订阅号。 本订阅号所刊载的信息均基于光大证券研究所已正式发布的研究报告,仅供在新媒体形势下研究信息、研究观点的及时沟通交流,其中的资料、意见、预测等,均反映相关研究报告初次发布当日光大证券研究所的判断,可能需随时进行调整,本订阅号不承担更新推送信息或另行通知的义务。如需了解详细的证券研究信息,请具体参见光大证券研究所发布的完整报告。 在任何情况下,本订阅号所载内容不构成任何投资建议,任何投资者不应将本订阅号所载内容作为投资决策依据,本公司也不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。 本订阅号所载内容版权仅归光大证券股份有限公司所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用。如因侵权行为给光大证券造成任何直接或间接的损失,光大证券保留追究一切法律责任的权利。
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。