首页 > 公众号研报 > 【国信传媒】AIGC周度更新第二十九期(20240311 - 20240317)

【国信传媒】AIGC周度更新第二十九期(20240311 - 20240317)

作者:微信公众号【观媒万象】/ 发布时间:2024-03-18 / 悟空智库整理
(以下内容从国信证券《【国信传媒】AIGC周度更新第二十九期(20240311 - 20240317)》研报附件原文摘录)
  本周大模型及算法进展 海外模型方面,1)文生图模型,Midjourney更新推出保持角色一致性的功能Character Reference,可保持生成图像的角色与给定的参照角色一致,将不同的风格(如动漫、写真、插画)应用到角色中;2)视频模型方面,Sora将于年内正式向公众推出,可配备音效、编辑视频内容;3)AI智能体方面,谷歌DeepMind推出SIMA智能体,可通过训练学习玩游戏;4)多模态模型方面,苹果正式公布多模态大模型研究成果,MoE架构的300亿参数多模态大模型MM1。 国内模型方面,1)视频生音频模型上,国内团队发布“视频生音频”通用工具Sora Opera,将在本月上线并开放;2)图生视频模型方面,腾讯图生视频大模型“Follow Your Click”上线,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频;3)语言大模型上,由李开复创办的国内大模型独角兽公司零一万物API开放平台正式上线,首批提供三个模型,支持处理高达30万汉字。 B端工具及垂类应用,1)2024谷歌I/O开发者大会5月14日举行,或发布大量关于Gemini模型的最新动态。2)AI+电商方面,亚马逊推出新的生成式AI功能将允许卖家粘贴外部链接制作产品页面,该功能可以从卖家的外部网站获取信息,然后为该商品生成一个亚马逊产品页面,并附上文字说明和图片;京东“春晓计划”推出“AI全能服务包”,各类AI工具免费生成图文、视频和直播,号称“帮助商家节省50%运营成本”。 C端应用及服务,阿里通义千问推出AI阅读助手功能,可一键速读百份文档,解析超万页长文档。 重要上市公司变化方面,1)果麦文化:公司主投主控的AI动画大电影,以中华传统经典为内核、AI漫画大模型深度赋能创作,对标《长安三万里》,动画大电影正按项目进度计划,正常推进制作等相关工作;2)因赛集团:正在论证基于目前InsightGPT的视频生成及智剪能力。 01 大模型&算法 【Midjourney更新推出保持角色一致性的功能Character Reference(量子位)】 Midjourney更新推出名为角色参照(Character Reference)新功能,和之前的风格参照类似,不过这次不是保持风格一致,而是保持生成图像的角色与给定的参照角色一致,将不同的风格(如动漫、写真、插画)应用到角色中。角色参照新功能适用于Midjourney V6、Niji 6型号。 【OpenAI首席技术官:Sora将于年内正式向公众推出 可配备音效、编辑视频内容(科创板日报)】 14日讯,OpenAI首席技术官Mira Murati日前受访时表示,Sora将于今年晚些时候正式向公众推出,“可能需要几个月”。OpenAI将在Sora中支持配备音效,并允许用户编辑Sora生成的视频内容。此前Sora的测试资格只开放给了视觉艺术家、设计师和电影制作人。 【谷歌DeepMind推出SIMA智能体,可通过训练学习玩游戏(The Verge)】 谷歌DeepMind推出了SIMA,这是一种通过训练学习游戏技能的人工智能Agent,因此它玩起来更像人类,而不是一个只做自己事情的强大人工智能。SIMA代表可扩展、可指导、多世界智能体,目前仅处于研究阶段。谷歌DeepMind目前已在《Valheim:英灵神殿》、《无人深空》和《模拟山羊》等游戏上训练该电子游戏AI智能体,最终目的是学习如何玩任何游戏,甚至是没有线性路径结束的游戏和开放世界游戏。 【苹果的研究团队发布MoE架构的300亿参数多模态大模型MM1(机器之心)】 今日,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pretraining》中,苹果正式公布自家的多模态大模型研究成果——一个参数最高可达300亿(其他为30亿、70亿)的多模态模型系列,由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。 【Anthropic宣布Claude 3系列模型中的Haiku型号上线,速度快且便宜(Venture Beat)】 人工智能初创公司Anthropic今天发布了Claude 3 Haiku,这是其Claude 3 AI模型系列的最新成员。Haiku是同类智能产品中最快、最实惠的型号,提供先进的视觉功能和行业基准的强大性能。Haiku的发布是在Anthropic本月早些时候推出Claude 3模型系列之后不久,其中包括Claude 3 Opus和Claude 3 Sonnet。Claude 3 Haiku现已通过Anthropic的API提供给claude.ai上的Claude Pro订阅者。该模型还将很快登录Amazon Bedrock和Google Cloud Vertex AI,进一步扩大其对全球企业访问范围。 【OpenAI开源Transformer Debugger,可快速探索大模型的内部构造(新智元)】 OpenAI超级对齐(Superalignment)团队负责人正式官宣开源内部一直使用的Transformer调试器(Transformer Debugger),使用该工具研究者可以快速分析Transformer的内部结构,从而对小模型的特定行为进行调查。Transformer调试器将稀疏自动编码器,与OpenAI开发的自动可解释性——即大模型自动解释小模型,技术相结合。 【国内团队发布“视频生音频”通用工具Sora Opera,将在本月上线并开放(界面新闻)】 今年3月初,娱乐资本论·视智未来得知国内有团队已经有了Pika“同款”的视频配音生成工具,并且在内部试用了小半年,用于给文生视频的静音画面添加音效或背景音乐。当时,这个应用尚未对外发布。如今,该技术背后的团队“天图万境”已准备好对外亮相。由他们开发,并与华为云合作部署的这款名为Sora Opera的小工具,将在3月内上线并向公众开放。 【零一万物API开放平台正式上线,首批提供三个模型,支持处理高达30万汉字(机器之心)】 由李开复创办的国内大模型独角兽公司零一万物,今天正式发布了Yi大模型API开放平台。零一万物API开放平台链接:https://platform.lingyiwanwu.com/。此次API开放平台提供以下模型:1.Yi-34B-Chat-0205:支持通用聊天、问答、对话、写作、翻译等功能。2.Yi-34B-Chat-200K:200K上下文,多文档阅读理解、超长知识库构建小能手。3.Yi-VL-Plus:多模态大模型,支持文本、视觉多模态输入,中文图表体验超过GPT-4V。 【腾讯图生视频大模型“Follow Your Click”上线(科创板日报)】 15日讯,腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。据了解,腾讯混元大模型团队,正在持续探索多模态技术。 02 工具&垂类应用(2B) 【2024谷歌I/O开发者大会5月14日举行,将聚焦AI及带来Android 15新消息(IT之家)】 谷歌日前发布公告,宣布将于5月14日举办2024年度I/O开发者大会。本次大会主要通过在线直播方式进行,不过会邀请少量开发者、嘉宾、自媒体到现场观看。本次开发者大会的主题,其中一个必然是人工智能(AI),谷歌在官方博文中提及“Gemini”时代,预估会发布大量关于Gemini模型的最新动态。谷歌可能会在本次发布会上公布关于安卓15系统的相关信息。硬件方面,谷歌可能会在本次开发者活动中宣布Pixel 8a手机,更新Chromecast和Google TV产品等等。 【亚马逊推出新的生成式AI功能将允许卖家粘贴外部链接制作产品页面(cnBeta)】 亚马逊上的卖家很快就能通过复制粘贴链接来制作产品页面。亚马逊发布了一项新的人工智能生成功能,该功能可以从卖家的外部网站获取信息,然后为该商品生成一个亚马逊产品页面,并附上文字说明和图片。亚马逊提醒卖家,如果他们选择粘贴URL来创建产品页面,他们必须是链接内容的所有者、权利持有人或拥有使用许可。否则,亚马逊表示,如果发现卖家虚报网站所有权,可能会采取法律行动。该功能现已推出,美国卖家将在未来几周内使用。 【OpenAI与欧洲的新闻出版商Le Monde和Prisa Media达成内容合作(OpenAI Blog)】 3月14日讯,OpenAI今日宣布与欧洲的新闻出版商Le Monde(《世界报》)和Prisa Media就新闻内容构建合作伙伴关系,ChatGPT用户可通过这两个出版商获取旗下最新的法语和西班牙语新闻内容。OpenAI称他们提供的内容也将有助于其模型训练。 【京东推出AI全能服务包 免费生成图文、视频和直播(科创板日报)】 11日讯,京东“春晓计划”推出“AI全能服务包”,各类AI工具免费生成图文、视频和直播,号称“帮助商家节省50%运营成本”。据介绍,商家可借助“开店AI助手”完成开店和入驻,京小智支持7x24小时自动接待,“羚珑”工具可实现秒级免费生成图片,“京点点”支持秒级免费生成文案,支持AI生成视频。此外,京东还支持免费数字人“智能代播”,实现24小时不间断直播。 03 应用及服务(2C) 【三星泄露微软Copilot新功能:用自然语言操控各种功能(IT之家)】 微软计划本月晚些时候发布新款Surface电脑和适用于Windows 11的Copilot新功能,但三星似乎等不及了,在即将推出的Galaxy Book 4系列产品宣传材料中泄露了一些即将到来的Copilot功能。三星表示,Copilot“可以使用应用程序,总结短信内容,甚至可以直接从电脑发送短信”。这表明Copilot与Phone Link应用在三星Galaxy智能手机上将更深入地集成,目前Windows 11的稳定版本中还没有这些功能。 【阿里通义千问推出AI阅读助手功能:可一键速读百份文档,解析超万页长文档(快科技)】 阿里通义千问推出免费的文档解析功能,可解析网页、文档、图书,突破当前大模型长文档处理的天花板。针对单个文档,通义千问能够处理超万页的极长资料,换算成中文篇幅约1000万字。针对多个文档,可一键速读100份不同格式的资料,还可解析在线网页。文档解析功能将能为考试复习、文献阅读等人群提供极强辅助,现已在通义千问和APP同步上线。 04 重要上市公司变化 【果麦文化:目前动画大电影正按项目进度计划 正常推进制作等相关工作(金十)】 3月13日讯,果麦文化在业绩说明会上表示,公司主投主控的AI动画大电影,以中华传统经典为内核、AI漫画大模型深度赋能创作,对标《长安三万里》。总言之,可以用四个四字词语来涵盖,它们分别为:历史题材、家喻户晓、名家编剧、强强联手。目前动画大电影正按项目进度计划,正常推进制作等相关工作。具体上映时间将根据项目进度安排综合考虑。 【因赛集团:正在论证基于目前InsightGPT的视频生成及智剪能力(金十)】 05 近期AIGC热度趋势 抖音 百度搜索 微博 法律声明 本公众号(名称:观媒万象)为国信证券股份有限公司(下称“国信证券”)研究所传媒组依法设立、独立运营的唯一官方公众号。 本公众号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。国信证券不因任何订阅或接收本公众号内容的行为而将订阅人视为国信证券的客户。 本公众号不是国信证券研究报告的发布平台,本公众号只是转发国信证券发布研究报告的部分观点,订阅者若使用本公众号所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解和歧义。提请订阅者参阅国信证券已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。 国信证券对本公众号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本公众号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据国信证券后续发布的证券研究报告在不发布通知的情形下作出更改。国信证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本公众号中资料意见不一致的市场评论和/或观点。 本公众号所载信息、意见不构成所述证券或金融工具买卖的出价或征价,评级、目标价、估值、盈利预测等分析判断亦不构成对具体证券或金融工具在具体价位、具体时点、具体市场表现的投资建议。该等信息、意见在任何时候均不构成对任何人的具有针对性的、指导具体投资的操作意见,订阅者应当对本公众号中的信息和意见进行评估,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本 公众号内容做出的任何决策与国信证券或相关作者无关。 本公众号发布的内容仅为国信证券所有。未经国信证券事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本公众号发布的全部或部分内容,亦不得从未经国信证券书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本公众号发布的全部或部分内容。国信证券将保留追究一切法律责任的权利。

大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)

郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。