【国信传媒】AIGC周度更新第三十一期(20240325-20240407)
(以下内容从国信证券《【国信传媒】AIGC周度更新第三十一期(20240325-20240407)》研报附件原文摘录)
本周大模型及算法进展 海外模型方面,1)大模型上,AI21 Labs开源推出首个基于Mamba架构的大模型Jamba;亚马逊即将推出的旗舰模型,内部代号为Olympus,正在训练中,拥有数千亿个参数。2)开源模型方面,Databricks开源推出企业级大模型DBRX,性能超越LLaMA 2等开源模型。3)文生图模型图像生成效率及对图像的控制能力进一步提升,麻省理工大学携手Adobe演示DMD AI技术,渲染速度大幅提升,每秒可生成20幅画像;Adobe Firefly新增结构参考功能,可为生成的图像提供更多控制;OpenAI为DALL-E 3引入编辑功能,进一步精细化调整已生成图片。4)音频模型方面,OpenAI首次展示音频模型Voice Engine,15秒左右的参考声音即可生成和原音一模一样的全新音频;Stability AI推出Stable Audio 2.0音乐生成模型,可生成最长三分钟的歌曲。5)端侧模型方面,苹果研究人员称其设备端模型ReALM性能优于GPT-4,可大幅提升Siri智能程度,可同时理解用户屏幕上的内容和正在进行的操作;斯坦福团队推出可在手机等端侧设备运行的20亿参数大模型Octopus v2,可在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了GPT-4。 国内模型方面,1)大模型上,腾讯混元大模型技术架构已升级为混合专家模型(MoE)架构,参数规模达万亿,擅长处理复杂场景和多任务场景。目前正积极发展多模态模型,进一步加强文生图、文生3D以及文/图生视频能力。2)开源模型方面,阿里云通义千问今日开源320亿参数模型Qwen1.5-32B,目前通义千问共开源了7款大语言模型;360集团创始人周鸿祎透露,即将开源360智脑70亿参数模型,支持360K即50万字长文本输入,是国内目前开源模型中长文本能力中最长的模型;澜舟科技宣布孟子3-13B大模型正式开源,为主打高性价比的轻量化大模型,面向学术研究完全开放,并支持免费商用;元象首个MoE大模型开源,4.2B激活参数,效果堪比13B模型,无条件免费商用,让海量中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。 B端工具及垂类应用,1)AI+办公,Zoom推出人工智能驱动的统一协作平台Zoom Workplace,旨在支持企业重新构想团队合作、促进联系、提高生产力并优化灵活的工作体验;2)AI+编程,阿里云正在内部全面推行AI编程,公司未来20%的代码将由通义灵码编写,但程序员仍然是研发的核心,他们将有更多时间专注于系统设计以及核心业务开发工作。3)AI+经营,饿了么翱象系统上线“AI经营助手”,可生成各类经营关键报表,帮助商家进一步提升经营能力、把握生意机会。4)AI训练数据上,苹果、Meta等均与Shutterstock达成AI训练数据协议,初期交易金额2500万至5000万美元,后期扩大交易金额。5)数据上,OpenAI的ChatGPT企业版需求正在急剧增长,目前已有超过60万人注册使用ChatGPT企业版。6)苹果本届全球开发者大会将于6月10-14日举办,本届大会预计聚焦苹果AI战略,或揭示有关iPhone与谷歌Gemini合作的详情。 C端应用及服务,1)AI+教育上,字节AI教育平台Gauth排名美国教育类应用第二名,仅次于多邻国;2)AI+旅游上,谷歌推出能制作旅行攻略的AI工具,能通过自然语言对话,帮助用户生成旅行行程和出游建议的AI功能;3)AI硬件及端侧模型上,谷歌即将在Pixel 8上推出设备端人工智能功能,例如记录摘要和智能回复,这些功能将基于小型模型Gemini Nano;4)AI+视频方面,OpenAI发布了首个由Sora制作的MV《Worldweight》;5)AI+语音助手方面,百度文心一言APP上线新功能,可快速定制自己的AI声音,生成一个独特的“语音助手”。 重要上市公司变化方面,1)昆仑万维AI音乐生成大模型天工SkyMusic于4月2日启动邀测;2)昆仑万维:自研大模型“天工3.0”将于4月17日开启公测。 01 相关政策更新 【国家网信办发布生成式人工智能服务已备案信息 3月新增23家(财联社)】 4月2日电,国家网信办在官网定期汇总更新生成式人工智能服务已备案信息,3月新增23家企业。国家网信办明确,已上线的生成式人工智能应用或功能,应在显著位置或产品详情页面公示所使用已备案生成式人工智能服务情况,注明模型名称及备案号。 02 大模型&算法 【AI21 Labs开源推出首个基于Mamba架构的大模型Jamba(AI21 Labs)】 Jamba是由AI21 Labs推出的首个基于Mamba架构的生产级别的大语言模型,目前大部分的大模型(如GPT、Gemini和Llama)都是基于Transformer结构。而c该混合结构的模型提供了256K的上下文窗口,显著提升了处理长文本时的吞吐量和效率。 【亚马逊计划推出代号为Olympus的旗舰人工智能模型(The Verge)】 亚马逊向OpenAI竞争对手Anthropic投资高达40亿美元,同时也在押注内部将推出的大模型。据The Verge报道,由高级副总裁Rohit Prasad领导的亚马逊AGI团队有一个雄心勃勃的目标,即在今年年中超越Anthropic最新的Claude模型。其即将推出的旗舰模型,内部代号为Olympus,正在训练中,并且规模相当大,拥有数千亿个参数。 【Databricks开源推出企业级大模型DBRX,性能超越LLaMA 2等开源模型(Maginative)】 数据云平台Databricks宣布发布开源大模型DBRX的模型权重,在各种基准测试中均优于现有的开源模型。该公司的目标是为寻求利用生成式人工智能力量的企业提供高质量、可定制的人工智能。DBRX在语言理解、编程、数学和逻辑任务方面超越了LLaMA2-70B、Mixtral和Grok-1等模型。根据Databricks的开源基准测试Gauntlet,DBRX在30多个不同的最先进基准测试中处于领先地位,展示了开源模型质量的持续改进。 【OpenAI为DALL-E 3引入编辑功能:进一步精细化调整已生成图片(IT之家)】 OpenAI公司近日发布公告,宣布为DALL-E 3引入全新的编辑界面,在基于用户文本生成图片之后,可以继续根据用户描述精细化调整已生成的图片。DALL-E编辑器提供两种主要编辑方法:基于选择区域的编辑和对话式编辑。 【麻省理工大学携手Adobe演示DMD AI技术:每秒可生成20幅画像(IT之家)】 主流文生图模型固然已经能生成非常逼真的图片,但通常渲染时间非常缓慢。麻省理工大学携手Adobe公司近日研发了DMD方法,在尽量不影响图像质量的情况下,加快图像生成速度。DMD技术的全称时Distribution Matching Distillation,将多步扩散模型简化为一步图像生成解决方案。研究人员称,他们的模型可以在现代GPU硬件上每秒生成20幅图像。 【Adobe Firefly新增结构参考功能,可为生成的图像提供更多控制(Maginative)】 Adobe推出了其生成式AI工具Adobe Firefly的新功能更新,称为“结构参考”(Structure Reference)。文本到图像模块中提供的这一新功能允许用户将现有图像的结构应用到新生成的图像,从而提供全新的创意控制水平。 【OpenAI首次展示音频模型Voice Engine 15秒即可复制原音(财联社)】 3月30日电,OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。 【Stability AI推出Stable Audio 2.0音乐生成模型,可生成最长三分钟的歌曲(Stability AI)】 Stability AI宣布推出Stable Audio 2.0音乐生成模型,该模型能够通过单一自然语言提示,以44.1 kHz立体声播放长达三分钟的高质量完整曲目,具有连贯的音乐结构。新模型不仅具备文本转音频功能,还包含音频转音频功能。用户现在可以上传音频样本,并通过自然语言提示将这些样本转换成各种声音。此更新还扩展了音效生成和风格转换,为艺术家和音乐家提供了更大的灵活性、控制力和更高级的创作过程。新模型现已可在Stable Audio网站上免费使用,并且很快将在Stable Audio API上提供。 【苹果研究人员称其设备端模型ReALM性能优于GPT-4,可大幅提升Siri智能程度(IT之家)】 在最新的一篇研究论文中,苹果的人工智能团队描述了一种可以显著提升Siri智能的模型,而且他们认为这个名为ReALM的模型在测试中优于OpenAI的知名语言模型GPT-4.0。ReALM的特别之处在于,它可以同时理解用户屏幕上的内容和正在进行的操作。 【斯坦福团队推出可在手机等端侧设备运行的20亿参数大模型Octopus v2(机器之心)】 近日,斯坦福大学研究人员推出的Octopus v2火了,受到了开发者社区的极大关注,模型一夜下载量超2k。20亿参数的Octopus v2可以在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了GPT-4,并将上下文长度减少了95%。此外,Octopus v2比Llama 7B + RAG方案快36倍。 【Mistral Large模型现已在Amazon Bedrock上正式可用(财联社)】 4月7日电,亚马逊云科技宣布Mistral AI的Mistral Large模型现已在Amazon Bedrock上正式可用。据介绍,Amazon Bedrock是亚马逊云科技的一项完全托管服务,可提供安全且便捷的方式,让用户能够访问市场上全面、高性能、完全托管的基础模型(FM)。 【马斯克旗下xAI推出Grok-1.5,上下文长度至128k、HumanEval得分超GPT-4(量子位)】 此前,马斯克旗下xAI开源了Grok-1模型,今天又宣布Grok大模型升级到1.5版本,新版Grok在两个方面有重大升级:一是上下文长度飙升,从8192增长到128k,和GPT-4齐平。二是推理性能大幅提升,数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4。 【快手:快意通用大语言模型能力已超GPT-3.5 营销能力齐平GPT-4(科创板日报)】 26日讯,快手商业化算法负责人江鹏今日在2024快手磁力大会上表示,快意通用大语言模型能力超过GPT-3.5,通过对快意大模型进行千亿级Token商业知识预训练、百万级商业指令对齐等,快手进一步研发了业界领先的营销域大语言模型。该模型能生成符合快手风格的素材,在营销领域的能力已与GPT-4齐平。据透露,快手女娲数字人平台能支撑超过2200路数字人24小时同时开播,盘古视频AIGC能够让营销转化率提升33%。 【周鸿祎透露将开源360智脑7B模型,支持50万字长文本输入(金融界)】 360集团创始人周鸿祎日前在直播中透露,即将开源360智脑70亿参数模型,支持360K即50万字长文本输入。“前段时间大模型行业卷文本长度,很快100万字就是标配了。我们打算将这个能力开源,大家没必要重复造轮子。定360k主要是为讨个口彩。”周鸿祎称自己是开源的信徒,信奉开源的力量。据了解,360k在国内目前开源的长文本能力中最长。 【澜舟科技宣布孟子3-13B大模型正式开源,万亿token数据训练(量子位)】 澜舟科技宣布孟子3-13B大模型正式开源。这一主打高性价比的轻量化大模型,面向学术研究完全开放,并支持免费商用。在MMLU、GSM8K、HUMAN-EVAL等各项基准测试评估中,孟子3-13B都表现出了不错的性能。尤其在参数量20B以内的轻量化大模型领域,在中英文语言能力方面尤为突出,数学和编程能力也位于前列。 【腾讯:腾讯混元大模型正在积极发展多模态模型及应用(财联社)】 4月2日电,腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示,多模态大模型将重构内容产业,基于多模态的应用也会百花齐放。他介绍,腾讯混元大模型技术架构已升级为混合专家模型(MoE)架构,参数规模达万亿,擅长处理复杂场景和多任务场景。目前正积极发展多模态模型,进一步加强文生图、文生3D以及文/图生视频能力。同时探索基于大模型全面升级的数智人、语音对话虚拟人、具身智能机器人等应用,提升效率和体验。 【通义灵码上线通义千问APP将免费开放使用(科创板日报)】 3日讯,通义灵码正式上线通义千问APP,免费向全民开放。通义灵码是一款AI编程工具,支持Java、Python、Go、JavaScript、TypeScript、C/C++、C# 等200多种编程语言。通义千问APP为阿里云推出的大模型应用,目前具备了文本生成、超长文本理解、图片理解、图片生成、视频生成以及代码生成等功能。 【元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型(元象XVERSE)】 元象发布XVERSE-MoE-A4.2B大模型,采用业界最前沿的混合专家模型架构(Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,让海量中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。 【阿里云通义千问开源7款大语言模型(科创板日报)】 7日讯,阿里云通义千问今日开源320亿参数模型Qwen1.5-32B。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数6款大语言模型。目前,通义千问共开源了7款大语言模型。 03 工具&垂类应用(2B) 【Zoom推出人工智能驱动的统一协作平台Zoom Workplace(TechRadar)】 Zoom宣布推出Zoom Workplace,这是一款全新的人工智能协作平台,可将多种关键解决方案整合到一个统一的中心中,旨在支持企业重新构想团队合作、促进联系、提高生产力并优化灵活的工作体验。借助Zoom AI Companion,公司内的所有员工都可以提高生产力、更有效地协作并提高他们地技能。 【聚焦AI战略,苹果本届全球开发者大会将于6月10-14日举办(华尔街见闻)】 苹果公司今日宣布,其第35届全球开发者大会(WWDC)将于6月10日(周一)至14日(周五)在线举行。据悉,苹果公司计划在WWDC上提供在线会议和实验室,旨在帮助开发者了解将在大会上公布的新功能和软件。据报道,本届大会的焦点预计是苹果的AI战略,大会还可能揭示有关iPhone与谷歌Gemini合作的详情。 【消息称苹果正准备在WWDC 2024上推出AI应用商店(IT之家)】 根据目前已知信息,苹果将会在WWDC 2024为大家展示这些全新融入AI元素的系统和软件。不过,苹果的AI策略可能不仅仅只是局限于自家AI应用,而是为开发者和用户提供一个更大的平台,从而能够使其更好地从中获利。Melius Research主管Ben Reitzes周一在接受CNBC采访时表示,苹果可能会在6月份WWDC上推出一个全新的AI应用商店,预计将包括各大供应商提供的AI应用。 【全面推行AI写代码 阿里云未来20%代码由通义灵码编写(每日经济新闻)】 2日讯,阿里云正在内部全面推行AI编程,使用通义灵码辅助程序员写代码、读代码、查BUG、优化代码等。阿里云还专门给通义灵码分配了一个正式的员工工号——AI001。阿里云相关人士透露:“公司未来20%的代码将由通义灵码编写,但程序员仍然是研发的核心,他们将有更多时间专注于系统设计以及核心业务开发工作。” 【饿了么翱象系统上线“AI经营助手”,可生成各类经营关键报表(环球网)】 饿了么零售商家SAAS平台“翱象”宣布面向零售行业商家正式发布“AI经营助手”功能。通过这一经营工具,商家可智能生成各类经营关键报表和关键数据,进一步提升经营能力、把握生意机会。 【苹果、Meta等均与Shutterstock达成AI训练数据协议:初期交易金额2500万至5000万美元 后期扩大交易金额(科创板日报)】 7日讯,在2022年底ChatGPT首次亮相后的几个月里,苹果、Meta、谷歌、亚马逊等公司都与图片提供商Shutterstock达成协议,使用其库中数亿张图片、视频和音乐文件进行AI训练。苹果协议以及其他交易的规模此前从未公开。据最新消息,Shutterstock首席财务官Jarrod Yahes透露,Shutterstock与大型科技公司最初每笔交易金额为2500万美元至5000万美元,但后来大多数都扩大了交易金额。规模较小的科技公司也纷纷效仿,在过去两个月里引发了新“一系列活动”。 【OpenAI:ChatGPT企业版需求正在急剧增长(财联社)】 4月5日电,OpenAI COO Brad Lightcap表示,尽管面临越来越多同行竞争,ChatGPT企业版需求正在急剧增长。目前已有超过60万人注册使用ChatGPT企业版,而今年1月份的注册用户数量仅大约为15万人。 【无问芯穹发布“无穹Infini-AI”大模型开发与服务平台(钛媒体)】 3月31日消息,无问芯穹发布“无穹Infini-AI”大模型开发与服务平台,目前已支持Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3闭源模型、Llama2、Qwen、Qwen1.5系列等共20多个模型,以及AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡,支持多模型与多芯片之间的软硬件联合优化和统一部署。该平台宣布自3月31日起正式开放全量注册,给所有实名注册的个人和企业用户提供百亿tokens免费配额。 04 应用及服务(2C) 【字节AI教育平台Gauth排名美国教育类应用第二名 仅次于多邻国(科创板日报)】 28日讯,据字节AI教育平台Gauth官网公布的数据,已经有超过2亿学生用户使用过该平台。根据七麦榜单,截至2024年3月27日,Gauth目前排名美国教育类应用第二名,仅次于Duolingo(多邻国)。 【字节提速AI:Flow部门下设四大业务线,挖角大批百度阿里员工(新浪科技)】 近日,字节跳动推出AI角色互动App“话炉”,从而引发外界对其探索AI社交赛道的关注。据了解,“话炉”由字节跳动的Flow部门打造。Flow部门隶属于字节跳动的产品研发和工程部(内部简称“PDI”),目前下设四大业务线,包括AI教育、国际化、社区和豆包,“话炉”则属于社区业务线旗下。 【谷歌推出能制作旅行攻略的AI工具(财联社)】 3月28日电,当地时间周三,谷歌发布公告,预披露了一项能通过自然语言对话,帮助用户生成旅行行程和出游建议的AI功能。谷歌透露,在这个AI行程功能背后,涵盖了超过2亿个全球地点的数据,汇聚了整个互联网的各种想法,以及用户向谷歌提交的评论、照片、商业资料详情等数据。目前该功能只有美国地区的内测用户可以试用。 【谷歌即将在Pixel 8上推出设备端人工智能功能,基于Gemini Nano(9to5Google)】 谷歌今天宣布,很快将在Pixel 8上推出设备端人工智能功能,例如记录摘要和智能回复。这些功能将基于谷歌去年发布的小型模型Gemini Nano,准备运行在设备上。此前,由于”硬件限制“,谷歌曾表示Gemini Nano仅会由Pixel 8 Pro搭载。目前看来,谷歌找到了一种可以在更少RAM上运行的大模型而又不影响其他用户体验的方法。 【OpenAI发布首个由Sora制作的MV(科创板日报)】 3日讯,今天凌晨,OpenAI发布了首个由Sora制作的MV——《Worldweight》,其中的音乐是由艺术家August Kamp作曲,而MV的画面内容,正是他借助Sora来完成的。 【谷歌据悉考虑对基于人工智能的搜索收费(财联社)】 4月4日电,谷歌正考虑对基于人工智能的搜索收费。三名了解谷歌计划的人士透露,谷歌正在考虑的选项包括在其高级订阅服务中添加某些人工智能搜索功能。其中一位知情人士表示,工程师们正在开发部署这项服务所需的技术,但高管们尚未就是否或何时推出这项服务做出最终决定。 【百度文心一言APP上线新功能,可快速定制自己的AI声音(IT之家)】 近日百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。想要体验这一功能,用户只需打开文心一言App,点击下方“+”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一句话,只需两秒左右的时间,系统便能捕捉到你的声音特点,为你生成一个独特的“语音助手”。 05 重要上市公司变化 【昆仑万维:自研大模型“天工3.0”将于4月17日开启公测(财联社)】 4月1日电,昆仑万维官微宣布,自研大语言模型“天工3.0”将于4月17日正式开启公测。“天工3.0”采用4千亿级参数MoE混合专家模型,并将同步选择开源。其中,“天工3.0”AI音乐生成大模型SkyMusic还将在4月2日面向社会开启邀测。 【昆仑万维AI音乐生成大模型天工SkyMusic今日启动邀测(天工AI助手公众号)】 4月2日,昆仑万维AI音乐生成大模型天工SkyMusic即日起面向社会开启免费邀测。本轮邀测将开放1000个免费名额,面向行业媒体、专家、以及感兴趣的音乐从业者开放。天工SkyMusic正式版也将在4月17日随天工3.0面向全社会免费开放。 06 近期AIGC热度趋势 抖音 百度搜索 微博 法律声明 本公众号(名称:观媒万象)为国信证券股份有限公司(下称“国信证券”)研究所传媒组依法设立、独立运营的唯一官方公众号。 本公众号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。国信证券不因任何订阅或接收本公众号内容的行为而将订阅人视为国信证券的客户。 本公众号不是国信证券研究报告的发布平台,本公众号只是转发国信证券发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解和歧义。提请订阅者参阅国信证券已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。 国信证券对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本公众号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据国信证券后续发布的证券研究报告在不发布通知的情形下作出更改。国信证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本公众号中资料意见不一致的市场评论和/或观点。 本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本 公众号内容做出的任何决策与国信证券或相关作者无关。 本公众号发布的内容仅为国信证券所有。未经国信证券事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本公众号发布的全部或部分内容,亦不得从未经国信证券书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本公众号发布的全部或部分内容。国信证券将保留追究一切法律责任的权利。
本周大模型及算法进展 海外模型方面,1)大模型上,AI21 Labs开源推出首个基于Mamba架构的大模型Jamba;亚马逊即将推出的旗舰模型,内部代号为Olympus,正在训练中,拥有数千亿个参数。2)开源模型方面,Databricks开源推出企业级大模型DBRX,性能超越LLaMA 2等开源模型。3)文生图模型图像生成效率及对图像的控制能力进一步提升,麻省理工大学携手Adobe演示DMD AI技术,渲染速度大幅提升,每秒可生成20幅画像;Adobe Firefly新增结构参考功能,可为生成的图像提供更多控制;OpenAI为DALL-E 3引入编辑功能,进一步精细化调整已生成图片。4)音频模型方面,OpenAI首次展示音频模型Voice Engine,15秒左右的参考声音即可生成和原音一模一样的全新音频;Stability AI推出Stable Audio 2.0音乐生成模型,可生成最长三分钟的歌曲。5)端侧模型方面,苹果研究人员称其设备端模型ReALM性能优于GPT-4,可大幅提升Siri智能程度,可同时理解用户屏幕上的内容和正在进行的操作;斯坦福团队推出可在手机等端侧设备运行的20亿参数大模型Octopus v2,可在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了GPT-4。 国内模型方面,1)大模型上,腾讯混元大模型技术架构已升级为混合专家模型(MoE)架构,参数规模达万亿,擅长处理复杂场景和多任务场景。目前正积极发展多模态模型,进一步加强文生图、文生3D以及文/图生视频能力。2)开源模型方面,阿里云通义千问今日开源320亿参数模型Qwen1.5-32B,目前通义千问共开源了7款大语言模型;360集团创始人周鸿祎透露,即将开源360智脑70亿参数模型,支持360K即50万字长文本输入,是国内目前开源模型中长文本能力中最长的模型;澜舟科技宣布孟子3-13B大模型正式开源,为主打高性价比的轻量化大模型,面向学术研究完全开放,并支持免费商用;元象首个MoE大模型开源,4.2B激活参数,效果堪比13B模型,无条件免费商用,让海量中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。 B端工具及垂类应用,1)AI+办公,Zoom推出人工智能驱动的统一协作平台Zoom Workplace,旨在支持企业重新构想团队合作、促进联系、提高生产力并优化灵活的工作体验;2)AI+编程,阿里云正在内部全面推行AI编程,公司未来20%的代码将由通义灵码编写,但程序员仍然是研发的核心,他们将有更多时间专注于系统设计以及核心业务开发工作。3)AI+经营,饿了么翱象系统上线“AI经营助手”,可生成各类经营关键报表,帮助商家进一步提升经营能力、把握生意机会。4)AI训练数据上,苹果、Meta等均与Shutterstock达成AI训练数据协议,初期交易金额2500万至5000万美元,后期扩大交易金额。5)数据上,OpenAI的ChatGPT企业版需求正在急剧增长,目前已有超过60万人注册使用ChatGPT企业版。6)苹果本届全球开发者大会将于6月10-14日举办,本届大会预计聚焦苹果AI战略,或揭示有关iPhone与谷歌Gemini合作的详情。 C端应用及服务,1)AI+教育上,字节AI教育平台Gauth排名美国教育类应用第二名,仅次于多邻国;2)AI+旅游上,谷歌推出能制作旅行攻略的AI工具,能通过自然语言对话,帮助用户生成旅行行程和出游建议的AI功能;3)AI硬件及端侧模型上,谷歌即将在Pixel 8上推出设备端人工智能功能,例如记录摘要和智能回复,这些功能将基于小型模型Gemini Nano;4)AI+视频方面,OpenAI发布了首个由Sora制作的MV《Worldweight》;5)AI+语音助手方面,百度文心一言APP上线新功能,可快速定制自己的AI声音,生成一个独特的“语音助手”。 重要上市公司变化方面,1)昆仑万维AI音乐生成大模型天工SkyMusic于4月2日启动邀测;2)昆仑万维:自研大模型“天工3.0”将于4月17日开启公测。 01 相关政策更新 【国家网信办发布生成式人工智能服务已备案信息 3月新增23家(财联社)】 4月2日电,国家网信办在官网定期汇总更新生成式人工智能服务已备案信息,3月新增23家企业。国家网信办明确,已上线的生成式人工智能应用或功能,应在显著位置或产品详情页面公示所使用已备案生成式人工智能服务情况,注明模型名称及备案号。 02 大模型&算法 【AI21 Labs开源推出首个基于Mamba架构的大模型Jamba(AI21 Labs)】 Jamba是由AI21 Labs推出的首个基于Mamba架构的生产级别的大语言模型,目前大部分的大模型(如GPT、Gemini和Llama)都是基于Transformer结构。而c该混合结构的模型提供了256K的上下文窗口,显著提升了处理长文本时的吞吐量和效率。 【亚马逊计划推出代号为Olympus的旗舰人工智能模型(The Verge)】 亚马逊向OpenAI竞争对手Anthropic投资高达40亿美元,同时也在押注内部将推出的大模型。据The Verge报道,由高级副总裁Rohit Prasad领导的亚马逊AGI团队有一个雄心勃勃的目标,即在今年年中超越Anthropic最新的Claude模型。其即将推出的旗舰模型,内部代号为Olympus,正在训练中,并且规模相当大,拥有数千亿个参数。 【Databricks开源推出企业级大模型DBRX,性能超越LLaMA 2等开源模型(Maginative)】 数据云平台Databricks宣布发布开源大模型DBRX的模型权重,在各种基准测试中均优于现有的开源模型。该公司的目标是为寻求利用生成式人工智能力量的企业提供高质量、可定制的人工智能。DBRX在语言理解、编程、数学和逻辑任务方面超越了LLaMA2-70B、Mixtral和Grok-1等模型。根据Databricks的开源基准测试Gauntlet,DBRX在30多个不同的最先进基准测试中处于领先地位,展示了开源模型质量的持续改进。 【OpenAI为DALL-E 3引入编辑功能:进一步精细化调整已生成图片(IT之家)】 OpenAI公司近日发布公告,宣布为DALL-E 3引入全新的编辑界面,在基于用户文本生成图片之后,可以继续根据用户描述精细化调整已生成的图片。DALL-E编辑器提供两种主要编辑方法:基于选择区域的编辑和对话式编辑。 【麻省理工大学携手Adobe演示DMD AI技术:每秒可生成20幅画像(IT之家)】 主流文生图模型固然已经能生成非常逼真的图片,但通常渲染时间非常缓慢。麻省理工大学携手Adobe公司近日研发了DMD方法,在尽量不影响图像质量的情况下,加快图像生成速度。DMD技术的全称时Distribution Matching Distillation,将多步扩散模型简化为一步图像生成解决方案。研究人员称,他们的模型可以在现代GPU硬件上每秒生成20幅图像。 【Adobe Firefly新增结构参考功能,可为生成的图像提供更多控制(Maginative)】 Adobe推出了其生成式AI工具Adobe Firefly的新功能更新,称为“结构参考”(Structure Reference)。文本到图像模块中提供的这一新功能允许用户将现有图像的结构应用到新生成的图像,从而提供全新的创意控制水平。 【OpenAI首次展示音频模型Voice Engine 15秒即可复制原音(财联社)】 3月30日电,OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。 【Stability AI推出Stable Audio 2.0音乐生成模型,可生成最长三分钟的歌曲(Stability AI)】 Stability AI宣布推出Stable Audio 2.0音乐生成模型,该模型能够通过单一自然语言提示,以44.1 kHz立体声播放长达三分钟的高质量完整曲目,具有连贯的音乐结构。新模型不仅具备文本转音频功能,还包含音频转音频功能。用户现在可以上传音频样本,并通过自然语言提示将这些样本转换成各种声音。此更新还扩展了音效生成和风格转换,为艺术家和音乐家提供了更大的灵活性、控制力和更高级的创作过程。新模型现已可在Stable Audio网站上免费使用,并且很快将在Stable Audio API上提供。 【苹果研究人员称其设备端模型ReALM性能优于GPT-4,可大幅提升Siri智能程度(IT之家)】 在最新的一篇研究论文中,苹果的人工智能团队描述了一种可以显著提升Siri智能的模型,而且他们认为这个名为ReALM的模型在测试中优于OpenAI的知名语言模型GPT-4.0。ReALM的特别之处在于,它可以同时理解用户屏幕上的内容和正在进行的操作。 【斯坦福团队推出可在手机等端侧设备运行的20亿参数大模型Octopus v2(机器之心)】 近日,斯坦福大学研究人员推出的Octopus v2火了,受到了开发者社区的极大关注,模型一夜下载量超2k。20亿参数的Octopus v2可以在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了GPT-4,并将上下文长度减少了95%。此外,Octopus v2比Llama 7B + RAG方案快36倍。 【Mistral Large模型现已在Amazon Bedrock上正式可用(财联社)】 4月7日电,亚马逊云科技宣布Mistral AI的Mistral Large模型现已在Amazon Bedrock上正式可用。据介绍,Amazon Bedrock是亚马逊云科技的一项完全托管服务,可提供安全且便捷的方式,让用户能够访问市场上全面、高性能、完全托管的基础模型(FM)。 【马斯克旗下xAI推出Grok-1.5,上下文长度至128k、HumanEval得分超GPT-4(量子位)】 此前,马斯克旗下xAI开源了Grok-1模型,今天又宣布Grok大模型升级到1.5版本,新版Grok在两个方面有重大升级:一是上下文长度飙升,从8192增长到128k,和GPT-4齐平。二是推理性能大幅提升,数学能力直接涨点50%之多、HumanEval数据集上得分超过GPT-4。 【快手:快意通用大语言模型能力已超GPT-3.5 营销能力齐平GPT-4(科创板日报)】 26日讯,快手商业化算法负责人江鹏今日在2024快手磁力大会上表示,快意通用大语言模型能力超过GPT-3.5,通过对快意大模型进行千亿级Token商业知识预训练、百万级商业指令对齐等,快手进一步研发了业界领先的营销域大语言模型。该模型能生成符合快手风格的素材,在营销领域的能力已与GPT-4齐平。据透露,快手女娲数字人平台能支撑超过2200路数字人24小时同时开播,盘古视频AIGC能够让营销转化率提升33%。 【周鸿祎透露将开源360智脑7B模型,支持50万字长文本输入(金融界)】 360集团创始人周鸿祎日前在直播中透露,即将开源360智脑70亿参数模型,支持360K即50万字长文本输入。“前段时间大模型行业卷文本长度,很快100万字就是标配了。我们打算将这个能力开源,大家没必要重复造轮子。定360k主要是为讨个口彩。”周鸿祎称自己是开源的信徒,信奉开源的力量。据了解,360k在国内目前开源的长文本能力中最长。 【澜舟科技宣布孟子3-13B大模型正式开源,万亿token数据训练(量子位)】 澜舟科技宣布孟子3-13B大模型正式开源。这一主打高性价比的轻量化大模型,面向学术研究完全开放,并支持免费商用。在MMLU、GSM8K、HUMAN-EVAL等各项基准测试评估中,孟子3-13B都表现出了不错的性能。尤其在参数量20B以内的轻量化大模型领域,在中英文语言能力方面尤为突出,数学和编程能力也位于前列。 【腾讯:腾讯混元大模型正在积极发展多模态模型及应用(财联社)】 4月2日电,腾讯云副总裁、腾讯混元大模型负责人刘煜宏表示,多模态大模型将重构内容产业,基于多模态的应用也会百花齐放。他介绍,腾讯混元大模型技术架构已升级为混合专家模型(MoE)架构,参数规模达万亿,擅长处理复杂场景和多任务场景。目前正积极发展多模态模型,进一步加强文生图、文生3D以及文/图生视频能力。同时探索基于大模型全面升级的数智人、语音对话虚拟人、具身智能机器人等应用,提升效率和体验。 【通义灵码上线通义千问APP将免费开放使用(科创板日报)】 3日讯,通义灵码正式上线通义千问APP,免费向全民开放。通义灵码是一款AI编程工具,支持Java、Python、Go、JavaScript、TypeScript、C/C++、C# 等200多种编程语言。通义千问APP为阿里云推出的大模型应用,目前具备了文本生成、超长文本理解、图片理解、图片生成、视频生成以及代码生成等功能。 【元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型(元象XVERSE)】 元象发布XVERSE-MoE-A4.2B大模型,采用业界最前沿的混合专家模型架构(Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,让海量中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。 【阿里云通义千问开源7款大语言模型(科创板日报)】 7日讯,阿里云通义千问今日开源320亿参数模型Qwen1.5-32B。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数6款大语言模型。目前,通义千问共开源了7款大语言模型。 03 工具&垂类应用(2B) 【Zoom推出人工智能驱动的统一协作平台Zoom Workplace(TechRadar)】 Zoom宣布推出Zoom Workplace,这是一款全新的人工智能协作平台,可将多种关键解决方案整合到一个统一的中心中,旨在支持企业重新构想团队合作、促进联系、提高生产力并优化灵活的工作体验。借助Zoom AI Companion,公司内的所有员工都可以提高生产力、更有效地协作并提高他们地技能。 【聚焦AI战略,苹果本届全球开发者大会将于6月10-14日举办(华尔街见闻)】 苹果公司今日宣布,其第35届全球开发者大会(WWDC)将于6月10日(周一)至14日(周五)在线举行。据悉,苹果公司计划在WWDC上提供在线会议和实验室,旨在帮助开发者了解将在大会上公布的新功能和软件。据报道,本届大会的焦点预计是苹果的AI战略,大会还可能揭示有关iPhone与谷歌Gemini合作的详情。 【消息称苹果正准备在WWDC 2024上推出AI应用商店(IT之家)】 根据目前已知信息,苹果将会在WWDC 2024为大家展示这些全新融入AI元素的系统和软件。不过,苹果的AI策略可能不仅仅只是局限于自家AI应用,而是为开发者和用户提供一个更大的平台,从而能够使其更好地从中获利。Melius Research主管Ben Reitzes周一在接受CNBC采访时表示,苹果可能会在6月份WWDC上推出一个全新的AI应用商店,预计将包括各大供应商提供的AI应用。 【全面推行AI写代码 阿里云未来20%代码由通义灵码编写(每日经济新闻)】 2日讯,阿里云正在内部全面推行AI编程,使用通义灵码辅助程序员写代码、读代码、查BUG、优化代码等。阿里云还专门给通义灵码分配了一个正式的员工工号——AI001。阿里云相关人士透露:“公司未来20%的代码将由通义灵码编写,但程序员仍然是研发的核心,他们将有更多时间专注于系统设计以及核心业务开发工作。” 【饿了么翱象系统上线“AI经营助手”,可生成各类经营关键报表(环球网)】 饿了么零售商家SAAS平台“翱象”宣布面向零售行业商家正式发布“AI经营助手”功能。通过这一经营工具,商家可智能生成各类经营关键报表和关键数据,进一步提升经营能力、把握生意机会。 【苹果、Meta等均与Shutterstock达成AI训练数据协议:初期交易金额2500万至5000万美元 后期扩大交易金额(科创板日报)】 7日讯,在2022年底ChatGPT首次亮相后的几个月里,苹果、Meta、谷歌、亚马逊等公司都与图片提供商Shutterstock达成协议,使用其库中数亿张图片、视频和音乐文件进行AI训练。苹果协议以及其他交易的规模此前从未公开。据最新消息,Shutterstock首席财务官Jarrod Yahes透露,Shutterstock与大型科技公司最初每笔交易金额为2500万美元至5000万美元,但后来大多数都扩大了交易金额。规模较小的科技公司也纷纷效仿,在过去两个月里引发了新“一系列活动”。 【OpenAI:ChatGPT企业版需求正在急剧增长(财联社)】 4月5日电,OpenAI COO Brad Lightcap表示,尽管面临越来越多同行竞争,ChatGPT企业版需求正在急剧增长。目前已有超过60万人注册使用ChatGPT企业版,而今年1月份的注册用户数量仅大约为15万人。 【无问芯穹发布“无穹Infini-AI”大模型开发与服务平台(钛媒体)】 3月31日消息,无问芯穹发布“无穹Infini-AI”大模型开发与服务平台,目前已支持Baichuan2、ChatGLM2、ChatGLM3、ChatGLM3闭源模型、Llama2、Qwen、Qwen1.5系列等共20多个模型,以及AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡,支持多模型与多芯片之间的软硬件联合优化和统一部署。该平台宣布自3月31日起正式开放全量注册,给所有实名注册的个人和企业用户提供百亿tokens免费配额。 04 应用及服务(2C) 【字节AI教育平台Gauth排名美国教育类应用第二名 仅次于多邻国(科创板日报)】 28日讯,据字节AI教育平台Gauth官网公布的数据,已经有超过2亿学生用户使用过该平台。根据七麦榜单,截至2024年3月27日,Gauth目前排名美国教育类应用第二名,仅次于Duolingo(多邻国)。 【字节提速AI:Flow部门下设四大业务线,挖角大批百度阿里员工(新浪科技)】 近日,字节跳动推出AI角色互动App“话炉”,从而引发外界对其探索AI社交赛道的关注。据了解,“话炉”由字节跳动的Flow部门打造。Flow部门隶属于字节跳动的产品研发和工程部(内部简称“PDI”),目前下设四大业务线,包括AI教育、国际化、社区和豆包,“话炉”则属于社区业务线旗下。 【谷歌推出能制作旅行攻略的AI工具(财联社)】 3月28日电,当地时间周三,谷歌发布公告,预披露了一项能通过自然语言对话,帮助用户生成旅行行程和出游建议的AI功能。谷歌透露,在这个AI行程功能背后,涵盖了超过2亿个全球地点的数据,汇聚了整个互联网的各种想法,以及用户向谷歌提交的评论、照片、商业资料详情等数据。目前该功能只有美国地区的内测用户可以试用。 【谷歌即将在Pixel 8上推出设备端人工智能功能,基于Gemini Nano(9to5Google)】 谷歌今天宣布,很快将在Pixel 8上推出设备端人工智能功能,例如记录摘要和智能回复。这些功能将基于谷歌去年发布的小型模型Gemini Nano,准备运行在设备上。此前,由于”硬件限制“,谷歌曾表示Gemini Nano仅会由Pixel 8 Pro搭载。目前看来,谷歌找到了一种可以在更少RAM上运行的大模型而又不影响其他用户体验的方法。 【OpenAI发布首个由Sora制作的MV(科创板日报)】 3日讯,今天凌晨,OpenAI发布了首个由Sora制作的MV——《Worldweight》,其中的音乐是由艺术家August Kamp作曲,而MV的画面内容,正是他借助Sora来完成的。 【谷歌据悉考虑对基于人工智能的搜索收费(财联社)】 4月4日电,谷歌正考虑对基于人工智能的搜索收费。三名了解谷歌计划的人士透露,谷歌正在考虑的选项包括在其高级订阅服务中添加某些人工智能搜索功能。其中一位知情人士表示,工程师们正在开发部署这项服务所需的技术,但高管们尚未就是否或何时推出这项服务做出最终决定。 【百度文心一言APP上线新功能,可快速定制自己的AI声音(IT之家)】 近日百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。想要体验这一功能,用户只需打开文心一言App,点击下方“+”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一句话,只需两秒左右的时间,系统便能捕捉到你的声音特点,为你生成一个独特的“语音助手”。 05 重要上市公司变化 【昆仑万维:自研大模型“天工3.0”将于4月17日开启公测(财联社)】 4月1日电,昆仑万维官微宣布,自研大语言模型“天工3.0”将于4月17日正式开启公测。“天工3.0”采用4千亿级参数MoE混合专家模型,并将同步选择开源。其中,“天工3.0”AI音乐生成大模型SkyMusic还将在4月2日面向社会开启邀测。 【昆仑万维AI音乐生成大模型天工SkyMusic今日启动邀测(天工AI助手公众号)】 4月2日,昆仑万维AI音乐生成大模型天工SkyMusic即日起面向社会开启免费邀测。本轮邀测将开放1000个免费名额,面向行业媒体、专家、以及感兴趣的音乐从业者开放。天工SkyMusic正式版也将在4月17日随天工3.0面向全社会免费开放。 06 近期AIGC热度趋势 抖音 百度搜索 微博 法律声明 本公众号(名称:观媒万象)为国信证券股份有限公司(下称“国信证券”)研究所传媒组依法设立、独立运营的唯一官方公众号。 本公众号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。国信证券不因任何订阅或接收本公众号内容的行为而将订阅人视为国信证券的客户。 本公众号不是国信证券研究报告的发布平台,本公众号只是转发国信证券发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解和歧义。提请订阅者参阅国信证券已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。 国信证券对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本公众号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据国信证券后续发布的证券研究报告在不发布通知的情形下作出更改。国信证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本公众号中资料意见不一致的市场评论和/或观点。 本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本 公众号内容做出的任何决策与国信证券或相关作者无关。 本公众号发布的内容仅为国信证券所有。未经国信证券事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本公众号发布的全部或部分内容,亦不得从未经国信证券书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本公众号发布的全部或部分内容。国信证券将保留追究一切法律责任的权利。
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。