安恒信息恒脑·安全垂域大模型详解
(以下内容从国泰君安《安恒信息恒脑·安全垂域大模型详解》研报附件原文摘录)
This browser does not support music or audio playback. Please play it in Weixin or another browser. 异地日记 音乐: 是可乐鸭 - 异地日记 一、安全垂域大模型——恒脑 今天主要汇报一下安恒在大模型上的实践以及现阶段的一些成果。ChatGPT 带来大模型的技术和产业的浪潮,未来的国内外的各大巨头也是先后地发布了通用大模型,当前的通用大模型,它具备了非常强的通用知识的能力、推理的能力以及语言对话的能力。安恒信息是一家专注于网络与数据安全的一家企业,如何利用大模型在安全产品、安全服务以及内部运营上带来一些质的提升和变化,是安恒投入大模型的一个原动力。 通过半年的努力,我们构建了安全垂域大模型——恒脑,让网络安全产品安全更易用、更高效、更可靠。 恒脑大模型的诞生,不是一蹴而就的。对于垂域大模型来说,最重要的是海量细分领域的安全知识数据。幸运的是,安恒在过去 16 年的时间拥有了宝贵的实战经验,更重要的是我们真正意义上的把这类的安全业务数据变成能力知识数据,把专家数据形成了平台级的能力知识数据。 在过去的半年中,通过 7 轮大规模的增量预训练以及数十次的微调,形成了恒脑的雏形。我们在半年中喂了各种领域的数据,包括安全测试,安全运营的数据,恒脑全盘吸收。在我们的训练过程中,我们每一位在从事大模型训练的人是真正更加切身感受到大模型的魅力。同时在过去我们也是结合了大运会安保经验的实战打磨,现在我们的恒脑大模型已经具备了非常优异的一些成绩。 在应用安全、威胁分析、安全运维、渗透测试的某些具体领域里面,我们发现恒脑的很多的能力已经优于了绝大部分国内外非常领先的通用大模型。 举一个针对于本地文件包含与远程文件包含之间区别的例子。在左边的这一幅图是由 ChatGPT 生成的,我们问了他这一个问题,其实大家可以看到他整体回答的从一眼看的角度是非常专业的,有文字的,有代码的,有比较的一些叙述。但是仔细看发现他回答的是错的。他整体的回答其实指的本地文件包含跟远程文件包含核心的区别点是在于调用的函数不一样。 但是我们的恒脑其实更多从一些角度准确回答,包括它的影响范围、攻击的复杂度以及防御的难度多个维度进行了全面性的阐述,所以恒脑在很多的知识领域里面,尤其在在数据安全的知识领域里面已经优于了通用的大模型。当然客观地说 ChatGPT 因为它有海量的知识训练,它里面包含了部分的安全知识,所以 ChatGPT 本身在一些安全知识上回答得也是非常不错。但是我们相信随着我们对于安全技术的理解,包括人工智能的理解,以及我们不断地安全知识的投喂,包括未来针对于各类的安全实战场景下的打磨和实践,未来恒脑一定会在安全领域方面全面超过通用。 我们认为在安全领域中,安恒恒脑大模型的下半场是智能体的大爆发。对于安全垂域大模型来说,不仅是让他变成一种问答专家,同时我们更需要的是让他能帮助我们去处理更多的任务。 去年安恒专门成立了open security 的能力中台,把我们的产品标准化、接口化,形成了我们产品的原子化,再结合我们的恒脑基础之上,形成了以感知、决策、执行、反馈等全链条的智能化解决方案。 在感知层面,每一次的用户交互变革都是一次重新洗牌的机会。其实对于大模型来说,它天然具有了非常强的自然语言的对话能力,这可以让很多的产品都值得用大模型重新再做一遍。 第二,在决策方面,因为对于很多的安全任务来说,它是一个复杂的推理过程,凭借恒脑强大的推理能力,再结合我们的一些小模型,各类的技术插件,可以实现对于安全任务的再分析、再拆解以及在安全垂域知识的掌握,以及对于安全知识的掌握进行再次的研判。 第三,针对于系统信息以及用户反馈,将形成更大尺度的训练和提升。我们大模型和智能体的上下文处理能力,打造更广泛的一个数据飞轮,不断地自我进化,不断地扩展处理安全的能力边界。 目前我们已经建立调用各类的原子能力,实现了数十项的插件集成。在未来一段时间内,我们将利用大模型的代码生成能力,通过大模型去生成 API,去调用更多第三方的插件,最终使得借助大模型为核心的智能体,在安全领域里面成为真正的全能安全副驾驶,成为真正的靠谱的安全小伙伴。 在以恒脑为核心的智能化一体解决方案里,我们形成了 1 + 4 +X的模式,基于一个能力底座,四种身份定位,实现X种可能性。针对于目前我们是实现了包括安全培训、安全运营、安全咨询与安全门诊医生的四种角色,未来我们在角色上面会进行无限的延伸,去服务更多的安全场景。 未来我们主要有五个战略发展方向。 第一是提升我们产品的能力。我们目前的大模型为核心的智能体已经支持了云化以及私有化的部署方式,提升我们的产品竞争力。今天也会发布第一款安全运营类的产品,未来我们也会不断地去发布全新的产品,更多的产品接入。 第二是用大模型去提升我们服务能效。这里面涉及到几个方面,第一个方面是利用大模型的一些能力化身为导师,帮助我们的安全从业人员更好地去处理一些安全问题,实现真正的服务产品化、服务标准化。第二方面大模型本身借助它的一些插件能力、调用能力等等,实现可以代替安全服务人员工作的能力。 第三个是赋能更广泛的客户。我们接下推出的互联网安全医院,通过大模型结合 SaaS 化,可以让用户更好地、更易用地去进行咨询,包括安全的诊断,安全的处置等。 第四个是填补人才缺口。这边有一组数据显示 2027 年我们全国的网络安全人才缺口有 300 万。针对于大模型,它一方面是可以去代替人的一些工作,去减少这里人才的一些缺口,但另一方面大模型可以化身为网安人才的私教,然后通过全天候陪伴教学,实现人才培养的加速。 第五是助力生态合作伙伴。我们会把恒脑开放出来,以帮助我们的生态合作伙伴共同去建立安全运营中心。同时我们会让更多的内部产品接入到外部,也让更多的外部产品接入到恒脑大模型里面,助力整个安全产业的发展。 从智能大模型到智能体,它是一个以知促行,知行合一的过程。我们在安恒大模型的事情上会稳扎稳打,知行合一一步一个脚印,包括今天我们会推出安全运营平台的全面升级,然后在网络安全周里面会去上线我们的恒脑体验中心,在亚运会中我们会对天穹运营中心进行全面升级,包括后面的互联网大会,我们针对于互联网安全医院会进行全面的升级。另外我相信在对于安全的理解驱动下,我们安恒恒脑大模型一定会不断地成长,为网络安全事业的建设添砖加瓦。 二、安全运营平台升级发布 安全运营目标结果很明确,就是为了去确保零事故的发生,但实际上通过人工智能的引入,我们希望能够在安全运营的过程中,在人机协作中更好的去控制成本,提高效率。安恒的安全运营平台经过前期四年的发展,我们也一步步的走来。 第一阶段,我们以 SOR 技术为基础,通过自动化编排这种联动剧本,实现了自动化的触发式的响应。 第二阶段,其实我们也发现很多客户对于安全运营的需求越来越旺盛,它的运营团队实现了规模化,它的安全管理更加制度化,在这个过程中,我们通过平台软件能够灵活编排这种复杂协作流程,满足客户复杂场景规模化运营。 第三个阶段,其实我们也发现很多安全的客户在建设过程中,它其实是循序渐进的,并且在这个过程中,很多安全能力是多厂商异构的,其实为了符合这种建设现状,我们把整个安全能力进行了解耦。目前我们整个安全运营平台能够支持业内主流的态势感知,包括安全分析的平台,实现了开放式的一个运营架构。 第四阶段,当下随着大模型技术的成熟和演进,我们希望通过大模型的赋能,给我们的专家提供更好的智能化辅助,能够降低我们的运营成本,提高我们的易用性和效能。 此次安全平台的升级对于安全分析师来说可以分为两大板块:如何通过大模型的辅助完成单兵作战,以及通过人机协作,针对复杂场景进行多人模式的联合运营。在单兵作战这种分析师的场景中,其实我们基本上是完成一个基本的解读文件的检测,包括情报查询和指令下发。在联合作战场景中,其实我们是进行了多人协作,包括规则编写、分工执行,闭环跟踪。 安全分析师是整个安全运营的核心大脑,而安全运营的管理者其实也是很关键的角色。针对于安全管理者,我们是如何能够通过人工智能辅助来提高易用性的体验感呢?这边列举了四个场景。 第一个场景就是报告服务。报告服务是一个比较常见的场景,我们需要去把我们的成果和价值进行输出的一种形式,那么传统的模式的话,我们可能会通过安全分析的结论来补充,我们有哪些相关的修复的建议,完善一些平台运行的建议和方案。 那么在引入了恒脑能力之后,这一块我们直接能够通过恒脑小助手来进行相关建议的补充。不管是关于运行的指导,还是专家建议的优化,我们都可以直接通过自然语言来提出相关的问题,来帮我们来补充相关的内容。并且在我们完成相关内容的专家填充之后,我们能够快速一键生成相关的分析报告,完成最终结果的提交。 第二个场景化就是针对于数据分析的场景。我们在做安全运营的时候,科学的决策经常需要必要的数据支撑,在这个环节,传统的模式化需要通过数据分析的意图,首先去选择当前这个数据意图关联的数据项和数据表,在这个过程中,我们也尝试去用一些低代码的技术,通过配置化去做一些灵活的选择。通过这种灵活选择之后,通过关联的逻辑去筛选出当前数据分析期望的结果。 当我们引入了恒脑的这种安全的智能能力之后,我们就可以通过自然语言来提问,然后恒脑的能力就会赋能给我们平台自动调取里面相关的数据内容,并且我们针对数据的展现形式来提出自己的一些要求。比如说我们希望把它展示成一个图表状,它就可以去帮我们去筛选当前这个数据如何来进行一个可视化的展示。 第三个场景就是针对流程设置。不管是安全分析的流程,还是在安全运营的过程中的流程管理,实际上每个客户单位和客户场景都会有一定的差异。我们经常需要在客户项目实施过程中来进行这种传统的业务配置,每个环节我们需要去介入一些关联数据,包括一些关联接口来实现这种连续的业务逻辑分析,包括业务协作。 引入了恒脑的能力之后,其实我们在这一块创建了一个 AI 指令分析组件,在这个组件里面我们可以提出一个问题,然后它会去帮我们持续推荐当前这个问题下的相关业务动作,这样就能够快速生成流行的配置,只需要去检查和复核这个流程来进行微调就可以了。 第四个场景就是针对态势呈现。态势呈现是运营管理者经常需要关心的运营成果的输出窗口。在这一块,其实原来也能够通过拖拉拽的方式去完成一个大屏的快速构建。比如说我们会选择一些关联的数据内容,比如说关联数据呈现的一些形式,在我们进行一些相关的配置,去完成一个大屏的呈现。 引入恒脑之后,这个事情比原来更加简单了。我们可以提出一个主题类的问题,比如说我们关心一个针对于攻击态势的大屏,那么恒脑首先会筛选一下,大家可以选择一个基础的模板来进行修改或者优化。比如说我们希望调整筛选的时间窗变成一周,包括我们能够快速去变化一些主题的样式,比如说更改配色,我们就能够快速的应用到我们的客户现场。 平台升级针对运营管理者主要是在体验方面,通过这种高易用性让体验价值有所提升。传统的模式我更愿意把它总结成一种低代码交互的方式。比如说报告服务,数据分析,流程设置和态势呈现,其实都在原来已经通过低代码的技术实现了部分的配置化和灵活化。但是大模型时代的到来给我们创造了新的机会。比如说针对报告服务,我们可以通过专家经验的导入、内容的润色来进行快速的完成。 针对数据分析,我们可以通过自然语言的交互来输出相关的这种报表。包括流程,我们可以通过智能意图的理解来简化流程的编辑。包括态势呈现,我们可以经过主题的这种需求识别来优化我们这种大屏的设计,这个实际上是针对于运营管理者的一些易用性的体验提升。 希望除了安全分析师和运营管理者,我们的合作伙伴可以帮助我们一起共建生态。其实我们在这一次安全运营平台里面,会有一个专门的渠道版本,希望除了我们安恒自建的运营中心,包括我们客户直销的运营中心之外,未来也能够更多的赋能给我们的合作伙伴,一起来去让更多的客户感受到这种智能化辅助的支持,与合作伙伴一起来共建共享,服务于更多的客户。 最后在这里简单小结一下。我们通过安恒恒脑的赋能,针对于安全分析师已经实现了智能化研判的辅助,包括平时的单兵攻关和联合作战。然后我们也在持续打磨与探索如何围绕着运营管理者提升体验价值。未来我们的计划能够去联合更多的合作伙伴一起来共建共享,能够去帮助更多客户一起来感受到人工智能时代大模型的魅力与价值。 三、圆桌会议 任何一个新科技新事物的产生和发展,首先要考虑的就是安全问题。今天圆桌的主题是,如何让 AI 运用更加规范。人工智能在网络安全领域早有应用,今年 ChatGPT 横空出世,才真真正正的让所有的科技行业的人都开始关注到人工智能在各领域的落地。安恒信息作为网络安全领域典型的代表厂商,也在积极地将大模型部署到安全运营工作中来,在知识问答、情报分析、日志分析上都已有广泛应用。 Q:AI自身所带有的偏见、歧视和误判,实质上是数据源的问题。当AI拥有自主意识之后,未来会有什么样的变化?如何应对AI的歧视问题? A:歧视问题在 AI 出现之前已经存在,这实际上是技术跟法律两个层面要共同面对的问题,也是发展过程中不可避免出现的问题。法律上有了明确的规定,即前几个月正式发布的生成式人工智能暂行规定。这个暂行规定的大前提,是数据安全法、个人信息保护法。该规定提到的核心原则,就是人工智能的安全跟发展并行。该原则明确规定,禁止在算法中掺杂种族歧视、性别歧视等方面的内容。个体可以对人工智能的歧视现象进行起诉,保障自身合法权益。 第二,要保证算法的透明性。必须公布人工智能背后的算法,才能做到在法律层面有法可依,才能保证用户自身权益。但是算法的透明化是有困难的,AI是一个黑箱,没办法得出背后的算法。虽然法律有要求,但是技术上很难实现。 在法律层面,正常的规则是谁主张谁举证,但是在 AI 领域有个举证倒置的问题。美国6 月份发生了一起集体诉讼,起诉Open AI违法收集用户信息,这个集体诉讼现在还没有判决。这确实是个黑洞,法律上的解决方案很明确,就是起诉方提供基础证据,但是进一步的证明需要Open AI自己来做。弄清楚算法是怎么算的、数据怎么收集的,才能让法官在判这种案件时更公平地分配举证责任。 Q:安恒在做网络安全大模型产品时有没有做这方面的考量? A:AI 之所以有这些问题,本质上还是因为我们的真实世界有这些问题。但是真实世界有执法、立法,来尽可能消除这些问题。在 AI 的数字世界中,尤其是如今AI大模型越来越像人类的情况下,我们也希望数字世界向着更美好的方向去发展。数据是 AI 的基础,AI最终的学习成果,跟它学到的数据、训练方式,以及使用数据的多少、分布、前后等都有非常大的关系。要从技术上解决这个问题,确实中间也碰到了很多难点。 良好的数据清洗、数据治理是好的AI大模型成型的基础。在获取无论是私有数据,还是网络上的公开数据时,我们都会发现,数据清洗是一个非常艰难、非常重要,又非常复杂的一项工作。安恒有非常大的数据清洗、数据治理的投入,这是一个好的AI大模型能够成型的基础。因为所以在互联网公开的数据中充斥着不完美的数据,需要在训练AI之前把这些数据给清洗掉。 这就需要制定大量的规则,通过大量的专家进行判断,有大量的自动化的工具和系统的开发,以保证AI数据的纯净度。AI 需要人的引导,在大模型的训练过程中,有一个很重要的SFT 的过程,即告诉AI什么事情该做,什么事情不该做。这些都是从技术层面解决问题的方式。 AI 在设计之初,其可解释性就一直是一个挑战。而在人类很多的生活场景、社会活动当中,其实需要一定的可解释性。AI可解释性的细分领域也一直在不停向前推进,如今已经出现了一些改善这方面问题的技术。举个例子,原来的AI大模型是一个纯黑盒的输出,看不到背后的算法和中间的运算过程。但现在我们可以把模型设计成一些分层的结构,让它输出一部分中间的内容。虽然说中间每一小块的内容依然是不可解释的,但是至少输出了中间的几个步骤,让人类大概知道模型的思考逻辑和判断流程,也就具备了一定的可解释性。 Q:数据清洗的具体标准是什么样的? A:AI大模型领域有一套比较标准的数据评估体系。首先积累数据源,然后对其进行一整套的数据评估,包括重复度、复杂度、歧义、伦理偏见、恶性字眼的判断,还要判断它的困惑度。只有经过数据评估体系的数据,最终才会成为训练数据。一方面能保证AI学习效果,也能保证合规性和社会伦理、社会道德的法律相关问题。 在AI领域一直有数据为王的说法,数据治理的水平直接影响AI训练成果。首先,模型的开发确实是有难度的,也需要很多专精的工程师,包括算法的开发等。但是无论如何,数据都是AI领域里面越不过的关口。不管是在小模型时代还是大模型时代,数据治理的水平很大程度决定了 AI 的最终成果。 Q:对于使用方、产生方的数据,是否会交由如安恒信息这样的安全运营平台来做数据分析呢?有没有遇到一些工作上的困难和挑战? A:AI的具体问题要结合具体的应用场景来看待。在金融行业,一般有下面几个具有典型意义的场景。第一个场景是智能客服,训练AI作为客服的行为及话术;第二个场景是业务安全,把大数据风控技术与大模型结合起来,产生更加有效、更加精准、更加智能的告警;第三个场景是日常办公,不管是正常的公文写作,还是报告撰写,都会遇到数据合规性的问题;第四个场景与安全相关。在安全领域里面,浙商证券早已部署了安恒网络安全运营平台,该平台会根据企业内部的安全告警、安全数据去生成更适合各家企业、更具有针对性的建议。 在数据投喂过程中,数据安全问题是较大挑战。以上这些具体的应用场景都绕不开数据安全的问题,需要把企业内部一些文档、一些制度、一些报告,甚至于涉及到客户信息相关的内容,作为养料投喂给大模型。在投喂的过程中,如何做到既能安全使用这些数据,又能避免数据泄露,是比较大的一个挑战。一方面,我们在跟监管去在积极的沟通、解决这些问题。另一方面,也在积极地跟安全厂商做更深入的沟通,在日常使用的过程中更多关注用户数据泄漏方面的风险。 目前我们还没有将涉及用户个人隐私的数据,如信誉贷款、还款记录数据应用在大模型里面,这一块监管非常严,并且极有可能造成客户投诉、法律合规以及一些社会舆论风险。原银保监会在去年发过一个数字化转型的指导意见,提及了模型带来的风险,也要求了就是对于模型这一块的数据,即使是内部使用,其准确性、充分性都是要经过交叉验证和定期评估的。尤其涉及到客户的问题,如定级或风险评价等,需要在一个压力环境下做模拟验证。 在技术层面,可以把AI大模型理解成算法跟算力的结合。在通用大模型领域,算力的需求非常惊人,其本地化、私有化部署投入非常大。但是在算法以及由算法构成的各种各样的模型的管理上,是需要自主掌握的,需要通过其他的一些方式,如隐私计算、联邦学习等方法,去规避掉数据泄露的风险。 Q:AI 使用过程中有没有一些安全上的担忧? A:银行不像社会,有很多伦理道德方面的担忧,而更多需要在固定领域、特定场景等方面的应用。可以理解成大模型下面的小模型的应用,相当于借助大模型的能力,更加智能、更加快速、更加方便地产出各种能够提高工作效率的辅助AI 模型,从而降低安全运营成本。 Q:安恒信息作为乙方,在大模型当中又做了哪些安全防范措施呢? A:安恒信息在数据安全领域也做了相关部署。数据安全近两年很热,大模型出来以后,大家都认为这是第四次科技革命。未来在1~2年的时间里,大模型会逐步渗透到各个行业各个领域,尤其是科技领域,这就带来了新的数据安全的问题。大模型的数据安全问题未来可能会是比较紧迫的一个方面,安恒在这一块也进行了一些研究。 基于安恒信息过往在数据安全的积累,安恒数盾提供了一整套的数据安全解决方案,从咨询评估、产品落地,到数据安全运营等全流程覆盖。我们可以把大模型当做一个新的一个应用,对数据进行一些分级分类的安全防护,并进行最小权限的管控。 考虑到数据分析和隐私性的需求,后续可能要上一些隐私计算的产品,包括安恒的安全岛、数据安全运营平台。大模型作为一个新的产物,有一些独有的数据安全问题是传统数据安全方案和场景覆盖不到的,安恒也在研究这些方面问题的解决方案。理论上,大模型应该有一个权限管控,对于不应该接触到某部分数据的人,应该拒绝回答。但是如果攻击者通过注入攻击,就有可能得到这部分隐私数据,这也是未来安恒会加强的一些方面。 Q:恒脑大模型在安全产品的安全方面做了哪些具体的措施呢? A:恒脑在模型和非模型层面都已经上了很多的安全措施。通过业界的研究以及安恒内部的实践,也有了一些应对措施。大模型从一开始构建的时候,可能有一些供应链安全的问题,如Transformer 这些依靠开源代码的模型,也存在着开源代码攻击的风险。在一开始构建和研发大模型的时候,就要引入正确的供应链,在研发的过程中不要留下漏洞,通过模型的结构设计、参数调整,以及在非模型层,可能是在引擎层或者是调度层的一些控制,如规则策略等方面的控制,尽可能减少大模型的逻辑漏洞和软件漏洞。 从数据、系统几个方面都要做一些安全方面的测试和加固。系统本身也可能存在一些漏洞,需要通过软件测试、渗透测试,及时地去发现和修复漏洞。在部署的时候,很多安恒的客户有私有化部署的需求,这就涉及到模型部署安全的问题。 比如说你这个模型部署在外面会不会被黑客给攻破?数据有没有被盗走的风险?这也是安恒后续需要去部署的方面。另外,在运营方面,当模型上线时,怎么样去防止用户在内容层面的恶意攻击?怎么快速地去进行应对和修复?这些问题在恒脑上线之前都已经给出了相应应对措施。 Q:大模型有时候会出现“胡说八道”的情况,其输出的内容在法律上或者在社会上的责任如何定义? A:从大模型的技术上来讲,这体现了两个问题,一个叫做认知一致性,一个叫做幻觉问题。认知一致性问题就是问好几次给出不同答案的情况,其认知是飘来飘去的;幻觉问题就是大模型不知道自己不知道什么,这是一个非常典型的问题,也是在做大模型开发是需要去优化的一个重要问题,得让大模型知道什么东西是它不知道的。不知道的时候就回答很抱歉就可以了,不要一本正经地去编,对用户进行误导。 要让大模型知道什么是其不擅长的,并且通过调用插件去解决它不擅长的领域。这其实已经是业界一个比较通用的做法了,大语言模型的结构不适合解决一些数理方面的问题。第一种解决方法是调用相关插件,第二种方法就是给予用户相关反馈,不会就是不会。通过研发人员不断的微调,逐渐让大模型知道了什么东西该说,什么东西不该说,慢慢来减少这方面的问题。 在法律层面,不管是不是胡说八道,只要内容涉及违法甚至侵权,就可能上升到法律范畴。在法律上的理解,首当其冲的大原则就是法无禁止即可为。只要不侵害他人权益,是没有任何问题的。 谈谈现在已经实际发生有关AI侵权的几个案例,供大家参考。在训练数据的时候,对于来源公开的数据进行合理使用,目前来说并不会构成侵权。但如果通过技术突破网站收费数据,这就构成了侵权,甚至涉及犯罪。 第一个案例是学而思,学而思发现他自己有一个 API 频繁被人家去调用,那么它是一个数据库,这都是作文数量很大。有人利用学而思的数据去训练训练他的模型,没有经过他的同意,那么这个时候他就直接就告这个研发方了。这时候是构成侵权的,属于数据合规性范畴。 第二个就是知识产权方面,主要问题是AI生成的作品受不受著作权保护。这里面我们国家有一反一正两个案例。第一个案例是腾讯,腾讯认可AI生成作品的著作权,但是认为著作权归属于研发方;第二个案例是北沪 2020 年出来一个判决,它是认为不构成著作权。核心要点就是在因为我们国家的著作权法很明确,因为首先是要独创性,独创性目前做到这个程度是特别我们智能化越来越发展,是能做到的最核心的,因为著作权保护的是一个人的创造性,也就是它的背景创作的是人。通过人工智能产生作品,按照现行的法律规定,是不纳入著作权保护的。现在主流的观点是这样的,著作权法是为了保护人的创造性。如果通过AIGC,在这个过程中不是通过简单的提示词,而是通过跟 AI 深度的互动,合作完成一个作品的,在这种情况下,大部分观点认为这就可以纳入著作权保护了。 如果人的因素介入非常多,在交互各方面的过程深度参与的话,是可以作为一个作品来保护的。创作的过程中加入了人的智慧,这时候已经可以将它称为作品了。人工智能不是纯粹的工具,它还可以让用户深度参与,但是这种深度参与难以界定。 在国家立法监督执行的过程中,也需要有技术力量的介入。需要做一些监管和知识产权的保护跟踪,比如通过区块链来登记作品,并进行追踪溯源和最终确认等。未来在大模型时代,国家一定会慢慢地把这个事情澄清,安恒也会通过技术力量去覆盖定义和监管办法,最终能够解决甲方的问题。 法律是上层建筑,技术是底层,技术基础最终还是要在规则层面去适应发展。以前的知识产权都是要先授权再使用,非常不适合现今的互联网。在立法层面也在考虑,是不是要先使用后付费,不用先授权。用了数据之后,再去支付给知识产权人相关费用,这样的制度更合理,也能提高创作效率。这也需要通过立法层面解决这样的发展问题。 合规声明:本文节选自安恒信息发布会,属于公开资料,如需全文请后台留言。 - end - 欢迎加入产业交流群! 欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的产业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。 网络安全相关报告 1. 为什么网络安全公司很难把渠道做好?| 产业调研 2. 甲方怎么看网络安全行业?| 产业调研 3. 海外网络安全和云计算大厂发展趋势(百页PPT) 4. 专家眼中疫情对网络安全行业的影响 | 产业调研 5. 网络安全公司的渠道战争已经打响 6. 为什么教育和医疗行业未来两年是网安公司必争之地?| 产业调研 7. 从网安龙头公司看渠道建设细节 | 产业调研 8. 一文读懂城市安全运营 | 产业调研 9. 读完此文,你还觉得启明星辰佛系吗? 10. 安恒信息:我们心目中的未来大白马 11. 安恒信息:高质量的高增长,难能可贵 12. 绿盟科技:有一种上车机会叫低于预期(深度) 13. 态势感知行业还能高速增长多久? 14. 南洋股份:防火墙之王,战略股东引发质变 15. 中国网络安全行业细分领域IDC数据大汇总 16.网络安全产品从入门到精通 17.海外专题:寻找中国网络安全公司中的Palo Alto(深度) 18. 奇安信基本面及虎符生态战略解密(30页PPT) 19. 迪普科技:中国应用交付产业的希望(深度) 20. 为什么网络安全公司纷纷布局EDR(深度) 21. 奇安信:六年磨剑,登顶江湖(深度) 22. Zscaler:云安全服务与接入领头羊(30页PPT) 23. Okta:身份认证独角兽(深度) 24.产业调研:寻找中国OKTA 25.深信服:SASE蓝海中的耀眼新星(深度) 26.奇安信:高增长的背后,探究网安龙头的成长密码(深度) 27.如何理解深信服的核心竞争力? 28.如何研究一家网络安全公司? 29.拥抱网络安全的小波段和大时代 30.奇安信:创新业务实力强大,助推公司成为全球网安龙头(深度) 31.产业调研:飞塔是个神奇的公司 32.产业调研:海外专家怎么看云计算和网络安全? 33.数据安全法带来的一些变化 34.产业调研:等保测评升级,网安行业需求大提升 35.产业调研:甲方视角下的网安行业边际变化 36.产业调研:解密传说中的长亭科技 37.亚信安全:懂网又懂云的网络安全公司(60页PPT) 38.从奇安信中报看新赛道布局的重要性 39. 《个人信息保护法》落地,网安行业变天了 40. 绿盟科技:励精图治,继往开来(深度) 41. 网安公司三季报分化之谜 42. 深信服:重构防火墙,用意深远 43. 读完Fortinet三季报,我对网安行业又有了信心(附纪要) 44. Palantir:野心贼大,想做世界的创新引擎(附纪要) 45. 从Crowdstrike看中国网安公司发展方向 46. 为什么中国没有真正的云安全公司? 47. 产业调研:传统网络安全公司面临的困境——温水煮青蛙 48. 产业调研:数据安全吹得很热,未来如何落地? 49. 产业调研:威努特董事长谈工控安全 50. 产业调研:再论数据安全 51. 绿盟科技:业绩预告验证景气度,网安行业不悲观 52. 山石网科:防火墙龙头,销售端发力助推高增长(深度) 53. 纬德信息:电力信息安全小巨人(深度) 54. 安恒信息:数据安全领头羊(深度) 55. 产业调研:HW具体怎么做? 56. 天融信:国内防火墙龙头,创新业务高增长(深度) 57. 产业调研:网络安全运营中心如何建设? 58. 产业调研:网络安全行业如何做信创? 59. 产业调研:深信服SASE3.0要做什么? 60. 产业调研:奇安信研发平台详解 61. 产业调研:深信服产品理念越来越像PaloAlto 62. 深信服股价见底了吗? 63. 产业调研:深信服如何应对居家办公带来的IT需求? 64. 产业调研:从销售视角观察,2022年网络安全行业景气度到底行不行? 65. 安恒信息:研究框架(200页PPT) 66. 产业调研:数据安全一线专家眼中的市场 67. 全世界都在等奇安信盈利 68. 产业调研:网络安全行业有哪些新变化? 69. 数据安全管理已经深入至工业领域 70. 商用密码行业未来三年景气度如何? 71. 产业调研:工业数据安全的发展前景 72. 安博通:网安行业景气度修复,上游厂商最先受益(深度) 73. 云涌科技:电力信息安全头部厂商(深度) 74. 威胁情报:对网安公司来说越来越重要(深度) 75. 奇安信的几个新变化 76. 奇安信Q-GPT安全机器人和大模型卫士详解 法律声明 本公众订阅号(计算机文艺复兴)为国泰君安证券研究所计算机研究团队依法设立并运营的微信公众订阅号。本团队负责人李沐华具备证券投资咨询(分析师)执业资格,资格证书编号为S0880519080009。本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用,如因侵权行为给国泰君安证券研究所造成任何直接或间接的损失,国泰君安证券研究所保留追究一切法律责任的权利。
This browser does not support music or audio playback. Please play it in Weixin or another browser. 异地日记 音乐: 是可乐鸭 - 异地日记 一、安全垂域大模型——恒脑 今天主要汇报一下安恒在大模型上的实践以及现阶段的一些成果。ChatGPT 带来大模型的技术和产业的浪潮,未来的国内外的各大巨头也是先后地发布了通用大模型,当前的通用大模型,它具备了非常强的通用知识的能力、推理的能力以及语言对话的能力。安恒信息是一家专注于网络与数据安全的一家企业,如何利用大模型在安全产品、安全服务以及内部运营上带来一些质的提升和变化,是安恒投入大模型的一个原动力。 通过半年的努力,我们构建了安全垂域大模型——恒脑,让网络安全产品安全更易用、更高效、更可靠。 恒脑大模型的诞生,不是一蹴而就的。对于垂域大模型来说,最重要的是海量细分领域的安全知识数据。幸运的是,安恒在过去 16 年的时间拥有了宝贵的实战经验,更重要的是我们真正意义上的把这类的安全业务数据变成能力知识数据,把专家数据形成了平台级的能力知识数据。 在过去的半年中,通过 7 轮大规模的增量预训练以及数十次的微调,形成了恒脑的雏形。我们在半年中喂了各种领域的数据,包括安全测试,安全运营的数据,恒脑全盘吸收。在我们的训练过程中,我们每一位在从事大模型训练的人是真正更加切身感受到大模型的魅力。同时在过去我们也是结合了大运会安保经验的实战打磨,现在我们的恒脑大模型已经具备了非常优异的一些成绩。 在应用安全、威胁分析、安全运维、渗透测试的某些具体领域里面,我们发现恒脑的很多的能力已经优于了绝大部分国内外非常领先的通用大模型。 举一个针对于本地文件包含与远程文件包含之间区别的例子。在左边的这一幅图是由 ChatGPT 生成的,我们问了他这一个问题,其实大家可以看到他整体回答的从一眼看的角度是非常专业的,有文字的,有代码的,有比较的一些叙述。但是仔细看发现他回答的是错的。他整体的回答其实指的本地文件包含跟远程文件包含核心的区别点是在于调用的函数不一样。 但是我们的恒脑其实更多从一些角度准确回答,包括它的影响范围、攻击的复杂度以及防御的难度多个维度进行了全面性的阐述,所以恒脑在很多的知识领域里面,尤其在在数据安全的知识领域里面已经优于了通用的大模型。当然客观地说 ChatGPT 因为它有海量的知识训练,它里面包含了部分的安全知识,所以 ChatGPT 本身在一些安全知识上回答得也是非常不错。但是我们相信随着我们对于安全技术的理解,包括人工智能的理解,以及我们不断地安全知识的投喂,包括未来针对于各类的安全实战场景下的打磨和实践,未来恒脑一定会在安全领域方面全面超过通用。 我们认为在安全领域中,安恒恒脑大模型的下半场是智能体的大爆发。对于安全垂域大模型来说,不仅是让他变成一种问答专家,同时我们更需要的是让他能帮助我们去处理更多的任务。 去年安恒专门成立了open security 的能力中台,把我们的产品标准化、接口化,形成了我们产品的原子化,再结合我们的恒脑基础之上,形成了以感知、决策、执行、反馈等全链条的智能化解决方案。 在感知层面,每一次的用户交互变革都是一次重新洗牌的机会。其实对于大模型来说,它天然具有了非常强的自然语言的对话能力,这可以让很多的产品都值得用大模型重新再做一遍。 第二,在决策方面,因为对于很多的安全任务来说,它是一个复杂的推理过程,凭借恒脑强大的推理能力,再结合我们的一些小模型,各类的技术插件,可以实现对于安全任务的再分析、再拆解以及在安全垂域知识的掌握,以及对于安全知识的掌握进行再次的研判。 第三,针对于系统信息以及用户反馈,将形成更大尺度的训练和提升。我们大模型和智能体的上下文处理能力,打造更广泛的一个数据飞轮,不断地自我进化,不断地扩展处理安全的能力边界。 目前我们已经建立调用各类的原子能力,实现了数十项的插件集成。在未来一段时间内,我们将利用大模型的代码生成能力,通过大模型去生成 API,去调用更多第三方的插件,最终使得借助大模型为核心的智能体,在安全领域里面成为真正的全能安全副驾驶,成为真正的靠谱的安全小伙伴。 在以恒脑为核心的智能化一体解决方案里,我们形成了 1 + 4 +X的模式,基于一个能力底座,四种身份定位,实现X种可能性。针对于目前我们是实现了包括安全培训、安全运营、安全咨询与安全门诊医生的四种角色,未来我们在角色上面会进行无限的延伸,去服务更多的安全场景。 未来我们主要有五个战略发展方向。 第一是提升我们产品的能力。我们目前的大模型为核心的智能体已经支持了云化以及私有化的部署方式,提升我们的产品竞争力。今天也会发布第一款安全运营类的产品,未来我们也会不断地去发布全新的产品,更多的产品接入。 第二是用大模型去提升我们服务能效。这里面涉及到几个方面,第一个方面是利用大模型的一些能力化身为导师,帮助我们的安全从业人员更好地去处理一些安全问题,实现真正的服务产品化、服务标准化。第二方面大模型本身借助它的一些插件能力、调用能力等等,实现可以代替安全服务人员工作的能力。 第三个是赋能更广泛的客户。我们接下推出的互联网安全医院,通过大模型结合 SaaS 化,可以让用户更好地、更易用地去进行咨询,包括安全的诊断,安全的处置等。 第四个是填补人才缺口。这边有一组数据显示 2027 年我们全国的网络安全人才缺口有 300 万。针对于大模型,它一方面是可以去代替人的一些工作,去减少这里人才的一些缺口,但另一方面大模型可以化身为网安人才的私教,然后通过全天候陪伴教学,实现人才培养的加速。 第五是助力生态合作伙伴。我们会把恒脑开放出来,以帮助我们的生态合作伙伴共同去建立安全运营中心。同时我们会让更多的内部产品接入到外部,也让更多的外部产品接入到恒脑大模型里面,助力整个安全产业的发展。 从智能大模型到智能体,它是一个以知促行,知行合一的过程。我们在安恒大模型的事情上会稳扎稳打,知行合一一步一个脚印,包括今天我们会推出安全运营平台的全面升级,然后在网络安全周里面会去上线我们的恒脑体验中心,在亚运会中我们会对天穹运营中心进行全面升级,包括后面的互联网大会,我们针对于互联网安全医院会进行全面的升级。另外我相信在对于安全的理解驱动下,我们安恒恒脑大模型一定会不断地成长,为网络安全事业的建设添砖加瓦。 二、安全运营平台升级发布 安全运营目标结果很明确,就是为了去确保零事故的发生,但实际上通过人工智能的引入,我们希望能够在安全运营的过程中,在人机协作中更好的去控制成本,提高效率。安恒的安全运营平台经过前期四年的发展,我们也一步步的走来。 第一阶段,我们以 SOR 技术为基础,通过自动化编排这种联动剧本,实现了自动化的触发式的响应。 第二阶段,其实我们也发现很多客户对于安全运营的需求越来越旺盛,它的运营团队实现了规模化,它的安全管理更加制度化,在这个过程中,我们通过平台软件能够灵活编排这种复杂协作流程,满足客户复杂场景规模化运营。 第三个阶段,其实我们也发现很多安全的客户在建设过程中,它其实是循序渐进的,并且在这个过程中,很多安全能力是多厂商异构的,其实为了符合这种建设现状,我们把整个安全能力进行了解耦。目前我们整个安全运营平台能够支持业内主流的态势感知,包括安全分析的平台,实现了开放式的一个运营架构。 第四阶段,当下随着大模型技术的成熟和演进,我们希望通过大模型的赋能,给我们的专家提供更好的智能化辅助,能够降低我们的运营成本,提高我们的易用性和效能。 此次安全平台的升级对于安全分析师来说可以分为两大板块:如何通过大模型的辅助完成单兵作战,以及通过人机协作,针对复杂场景进行多人模式的联合运营。在单兵作战这种分析师的场景中,其实我们基本上是完成一个基本的解读文件的检测,包括情报查询和指令下发。在联合作战场景中,其实我们是进行了多人协作,包括规则编写、分工执行,闭环跟踪。 安全分析师是整个安全运营的核心大脑,而安全运营的管理者其实也是很关键的角色。针对于安全管理者,我们是如何能够通过人工智能辅助来提高易用性的体验感呢?这边列举了四个场景。 第一个场景就是报告服务。报告服务是一个比较常见的场景,我们需要去把我们的成果和价值进行输出的一种形式,那么传统的模式的话,我们可能会通过安全分析的结论来补充,我们有哪些相关的修复的建议,完善一些平台运行的建议和方案。 那么在引入了恒脑能力之后,这一块我们直接能够通过恒脑小助手来进行相关建议的补充。不管是关于运行的指导,还是专家建议的优化,我们都可以直接通过自然语言来提出相关的问题,来帮我们来补充相关的内容。并且在我们完成相关内容的专家填充之后,我们能够快速一键生成相关的分析报告,完成最终结果的提交。 第二个场景化就是针对于数据分析的场景。我们在做安全运营的时候,科学的决策经常需要必要的数据支撑,在这个环节,传统的模式化需要通过数据分析的意图,首先去选择当前这个数据意图关联的数据项和数据表,在这个过程中,我们也尝试去用一些低代码的技术,通过配置化去做一些灵活的选择。通过这种灵活选择之后,通过关联的逻辑去筛选出当前数据分析期望的结果。 当我们引入了恒脑的这种安全的智能能力之后,我们就可以通过自然语言来提问,然后恒脑的能力就会赋能给我们平台自动调取里面相关的数据内容,并且我们针对数据的展现形式来提出自己的一些要求。比如说我们希望把它展示成一个图表状,它就可以去帮我们去筛选当前这个数据如何来进行一个可视化的展示。 第三个场景就是针对流程设置。不管是安全分析的流程,还是在安全运营的过程中的流程管理,实际上每个客户单位和客户场景都会有一定的差异。我们经常需要在客户项目实施过程中来进行这种传统的业务配置,每个环节我们需要去介入一些关联数据,包括一些关联接口来实现这种连续的业务逻辑分析,包括业务协作。 引入了恒脑的能力之后,其实我们在这一块创建了一个 AI 指令分析组件,在这个组件里面我们可以提出一个问题,然后它会去帮我们持续推荐当前这个问题下的相关业务动作,这样就能够快速生成流行的配置,只需要去检查和复核这个流程来进行微调就可以了。 第四个场景就是针对态势呈现。态势呈现是运营管理者经常需要关心的运营成果的输出窗口。在这一块,其实原来也能够通过拖拉拽的方式去完成一个大屏的快速构建。比如说我们会选择一些关联的数据内容,比如说关联数据呈现的一些形式,在我们进行一些相关的配置,去完成一个大屏的呈现。 引入恒脑之后,这个事情比原来更加简单了。我们可以提出一个主题类的问题,比如说我们关心一个针对于攻击态势的大屏,那么恒脑首先会筛选一下,大家可以选择一个基础的模板来进行修改或者优化。比如说我们希望调整筛选的时间窗变成一周,包括我们能够快速去变化一些主题的样式,比如说更改配色,我们就能够快速的应用到我们的客户现场。 平台升级针对运营管理者主要是在体验方面,通过这种高易用性让体验价值有所提升。传统的模式我更愿意把它总结成一种低代码交互的方式。比如说报告服务,数据分析,流程设置和态势呈现,其实都在原来已经通过低代码的技术实现了部分的配置化和灵活化。但是大模型时代的到来给我们创造了新的机会。比如说针对报告服务,我们可以通过专家经验的导入、内容的润色来进行快速的完成。 针对数据分析,我们可以通过自然语言的交互来输出相关的这种报表。包括流程,我们可以通过智能意图的理解来简化流程的编辑。包括态势呈现,我们可以经过主题的这种需求识别来优化我们这种大屏的设计,这个实际上是针对于运营管理者的一些易用性的体验提升。 希望除了安全分析师和运营管理者,我们的合作伙伴可以帮助我们一起共建生态。其实我们在这一次安全运营平台里面,会有一个专门的渠道版本,希望除了我们安恒自建的运营中心,包括我们客户直销的运营中心之外,未来也能够更多的赋能给我们的合作伙伴,一起来去让更多的客户感受到这种智能化辅助的支持,与合作伙伴一起来共建共享,服务于更多的客户。 最后在这里简单小结一下。我们通过安恒恒脑的赋能,针对于安全分析师已经实现了智能化研判的辅助,包括平时的单兵攻关和联合作战。然后我们也在持续打磨与探索如何围绕着运营管理者提升体验价值。未来我们的计划能够去联合更多的合作伙伴一起来共建共享,能够去帮助更多客户一起来感受到人工智能时代大模型的魅力与价值。 三、圆桌会议 任何一个新科技新事物的产生和发展,首先要考虑的就是安全问题。今天圆桌的主题是,如何让 AI 运用更加规范。人工智能在网络安全领域早有应用,今年 ChatGPT 横空出世,才真真正正的让所有的科技行业的人都开始关注到人工智能在各领域的落地。安恒信息作为网络安全领域典型的代表厂商,也在积极地将大模型部署到安全运营工作中来,在知识问答、情报分析、日志分析上都已有广泛应用。 Q:AI自身所带有的偏见、歧视和误判,实质上是数据源的问题。当AI拥有自主意识之后,未来会有什么样的变化?如何应对AI的歧视问题? A:歧视问题在 AI 出现之前已经存在,这实际上是技术跟法律两个层面要共同面对的问题,也是发展过程中不可避免出现的问题。法律上有了明确的规定,即前几个月正式发布的生成式人工智能暂行规定。这个暂行规定的大前提,是数据安全法、个人信息保护法。该规定提到的核心原则,就是人工智能的安全跟发展并行。该原则明确规定,禁止在算法中掺杂种族歧视、性别歧视等方面的内容。个体可以对人工智能的歧视现象进行起诉,保障自身合法权益。 第二,要保证算法的透明性。必须公布人工智能背后的算法,才能做到在法律层面有法可依,才能保证用户自身权益。但是算法的透明化是有困难的,AI是一个黑箱,没办法得出背后的算法。虽然法律有要求,但是技术上很难实现。 在法律层面,正常的规则是谁主张谁举证,但是在 AI 领域有个举证倒置的问题。美国6 月份发生了一起集体诉讼,起诉Open AI违法收集用户信息,这个集体诉讼现在还没有判决。这确实是个黑洞,法律上的解决方案很明确,就是起诉方提供基础证据,但是进一步的证明需要Open AI自己来做。弄清楚算法是怎么算的、数据怎么收集的,才能让法官在判这种案件时更公平地分配举证责任。 Q:安恒在做网络安全大模型产品时有没有做这方面的考量? A:AI 之所以有这些问题,本质上还是因为我们的真实世界有这些问题。但是真实世界有执法、立法,来尽可能消除这些问题。在 AI 的数字世界中,尤其是如今AI大模型越来越像人类的情况下,我们也希望数字世界向着更美好的方向去发展。数据是 AI 的基础,AI最终的学习成果,跟它学到的数据、训练方式,以及使用数据的多少、分布、前后等都有非常大的关系。要从技术上解决这个问题,确实中间也碰到了很多难点。 良好的数据清洗、数据治理是好的AI大模型成型的基础。在获取无论是私有数据,还是网络上的公开数据时,我们都会发现,数据清洗是一个非常艰难、非常重要,又非常复杂的一项工作。安恒有非常大的数据清洗、数据治理的投入,这是一个好的AI大模型能够成型的基础。因为所以在互联网公开的数据中充斥着不完美的数据,需要在训练AI之前把这些数据给清洗掉。 这就需要制定大量的规则,通过大量的专家进行判断,有大量的自动化的工具和系统的开发,以保证AI数据的纯净度。AI 需要人的引导,在大模型的训练过程中,有一个很重要的SFT 的过程,即告诉AI什么事情该做,什么事情不该做。这些都是从技术层面解决问题的方式。 AI 在设计之初,其可解释性就一直是一个挑战。而在人类很多的生活场景、社会活动当中,其实需要一定的可解释性。AI可解释性的细分领域也一直在不停向前推进,如今已经出现了一些改善这方面问题的技术。举个例子,原来的AI大模型是一个纯黑盒的输出,看不到背后的算法和中间的运算过程。但现在我们可以把模型设计成一些分层的结构,让它输出一部分中间的内容。虽然说中间每一小块的内容依然是不可解释的,但是至少输出了中间的几个步骤,让人类大概知道模型的思考逻辑和判断流程,也就具备了一定的可解释性。 Q:数据清洗的具体标准是什么样的? A:AI大模型领域有一套比较标准的数据评估体系。首先积累数据源,然后对其进行一整套的数据评估,包括重复度、复杂度、歧义、伦理偏见、恶性字眼的判断,还要判断它的困惑度。只有经过数据评估体系的数据,最终才会成为训练数据。一方面能保证AI学习效果,也能保证合规性和社会伦理、社会道德的法律相关问题。 在AI领域一直有数据为王的说法,数据治理的水平直接影响AI训练成果。首先,模型的开发确实是有难度的,也需要很多专精的工程师,包括算法的开发等。但是无论如何,数据都是AI领域里面越不过的关口。不管是在小模型时代还是大模型时代,数据治理的水平很大程度决定了 AI 的最终成果。 Q:对于使用方、产生方的数据,是否会交由如安恒信息这样的安全运营平台来做数据分析呢?有没有遇到一些工作上的困难和挑战? A:AI的具体问题要结合具体的应用场景来看待。在金融行业,一般有下面几个具有典型意义的场景。第一个场景是智能客服,训练AI作为客服的行为及话术;第二个场景是业务安全,把大数据风控技术与大模型结合起来,产生更加有效、更加精准、更加智能的告警;第三个场景是日常办公,不管是正常的公文写作,还是报告撰写,都会遇到数据合规性的问题;第四个场景与安全相关。在安全领域里面,浙商证券早已部署了安恒网络安全运营平台,该平台会根据企业内部的安全告警、安全数据去生成更适合各家企业、更具有针对性的建议。 在数据投喂过程中,数据安全问题是较大挑战。以上这些具体的应用场景都绕不开数据安全的问题,需要把企业内部一些文档、一些制度、一些报告,甚至于涉及到客户信息相关的内容,作为养料投喂给大模型。在投喂的过程中,如何做到既能安全使用这些数据,又能避免数据泄露,是比较大的一个挑战。一方面,我们在跟监管去在积极的沟通、解决这些问题。另一方面,也在积极地跟安全厂商做更深入的沟通,在日常使用的过程中更多关注用户数据泄漏方面的风险。 目前我们还没有将涉及用户个人隐私的数据,如信誉贷款、还款记录数据应用在大模型里面,这一块监管非常严,并且极有可能造成客户投诉、法律合规以及一些社会舆论风险。原银保监会在去年发过一个数字化转型的指导意见,提及了模型带来的风险,也要求了就是对于模型这一块的数据,即使是内部使用,其准确性、充分性都是要经过交叉验证和定期评估的。尤其涉及到客户的问题,如定级或风险评价等,需要在一个压力环境下做模拟验证。 在技术层面,可以把AI大模型理解成算法跟算力的结合。在通用大模型领域,算力的需求非常惊人,其本地化、私有化部署投入非常大。但是在算法以及由算法构成的各种各样的模型的管理上,是需要自主掌握的,需要通过其他的一些方式,如隐私计算、联邦学习等方法,去规避掉数据泄露的风险。 Q:AI 使用过程中有没有一些安全上的担忧? A:银行不像社会,有很多伦理道德方面的担忧,而更多需要在固定领域、特定场景等方面的应用。可以理解成大模型下面的小模型的应用,相当于借助大模型的能力,更加智能、更加快速、更加方便地产出各种能够提高工作效率的辅助AI 模型,从而降低安全运营成本。 Q:安恒信息作为乙方,在大模型当中又做了哪些安全防范措施呢? A:安恒信息在数据安全领域也做了相关部署。数据安全近两年很热,大模型出来以后,大家都认为这是第四次科技革命。未来在1~2年的时间里,大模型会逐步渗透到各个行业各个领域,尤其是科技领域,这就带来了新的数据安全的问题。大模型的数据安全问题未来可能会是比较紧迫的一个方面,安恒在这一块也进行了一些研究。 基于安恒信息过往在数据安全的积累,安恒数盾提供了一整套的数据安全解决方案,从咨询评估、产品落地,到数据安全运营等全流程覆盖。我们可以把大模型当做一个新的一个应用,对数据进行一些分级分类的安全防护,并进行最小权限的管控。 考虑到数据分析和隐私性的需求,后续可能要上一些隐私计算的产品,包括安恒的安全岛、数据安全运营平台。大模型作为一个新的产物,有一些独有的数据安全问题是传统数据安全方案和场景覆盖不到的,安恒也在研究这些方面问题的解决方案。理论上,大模型应该有一个权限管控,对于不应该接触到某部分数据的人,应该拒绝回答。但是如果攻击者通过注入攻击,就有可能得到这部分隐私数据,这也是未来安恒会加强的一些方面。 Q:恒脑大模型在安全产品的安全方面做了哪些具体的措施呢? A:恒脑在模型和非模型层面都已经上了很多的安全措施。通过业界的研究以及安恒内部的实践,也有了一些应对措施。大模型从一开始构建的时候,可能有一些供应链安全的问题,如Transformer 这些依靠开源代码的模型,也存在着开源代码攻击的风险。在一开始构建和研发大模型的时候,就要引入正确的供应链,在研发的过程中不要留下漏洞,通过模型的结构设计、参数调整,以及在非模型层,可能是在引擎层或者是调度层的一些控制,如规则策略等方面的控制,尽可能减少大模型的逻辑漏洞和软件漏洞。 从数据、系统几个方面都要做一些安全方面的测试和加固。系统本身也可能存在一些漏洞,需要通过软件测试、渗透测试,及时地去发现和修复漏洞。在部署的时候,很多安恒的客户有私有化部署的需求,这就涉及到模型部署安全的问题。 比如说你这个模型部署在外面会不会被黑客给攻破?数据有没有被盗走的风险?这也是安恒后续需要去部署的方面。另外,在运营方面,当模型上线时,怎么样去防止用户在内容层面的恶意攻击?怎么快速地去进行应对和修复?这些问题在恒脑上线之前都已经给出了相应应对措施。 Q:大模型有时候会出现“胡说八道”的情况,其输出的内容在法律上或者在社会上的责任如何定义? A:从大模型的技术上来讲,这体现了两个问题,一个叫做认知一致性,一个叫做幻觉问题。认知一致性问题就是问好几次给出不同答案的情况,其认知是飘来飘去的;幻觉问题就是大模型不知道自己不知道什么,这是一个非常典型的问题,也是在做大模型开发是需要去优化的一个重要问题,得让大模型知道什么东西是它不知道的。不知道的时候就回答很抱歉就可以了,不要一本正经地去编,对用户进行误导。 要让大模型知道什么是其不擅长的,并且通过调用插件去解决它不擅长的领域。这其实已经是业界一个比较通用的做法了,大语言模型的结构不适合解决一些数理方面的问题。第一种解决方法是调用相关插件,第二种方法就是给予用户相关反馈,不会就是不会。通过研发人员不断的微调,逐渐让大模型知道了什么东西该说,什么东西不该说,慢慢来减少这方面的问题。 在法律层面,不管是不是胡说八道,只要内容涉及违法甚至侵权,就可能上升到法律范畴。在法律上的理解,首当其冲的大原则就是法无禁止即可为。只要不侵害他人权益,是没有任何问题的。 谈谈现在已经实际发生有关AI侵权的几个案例,供大家参考。在训练数据的时候,对于来源公开的数据进行合理使用,目前来说并不会构成侵权。但如果通过技术突破网站收费数据,这就构成了侵权,甚至涉及犯罪。 第一个案例是学而思,学而思发现他自己有一个 API 频繁被人家去调用,那么它是一个数据库,这都是作文数量很大。有人利用学而思的数据去训练训练他的模型,没有经过他的同意,那么这个时候他就直接就告这个研发方了。这时候是构成侵权的,属于数据合规性范畴。 第二个就是知识产权方面,主要问题是AI生成的作品受不受著作权保护。这里面我们国家有一反一正两个案例。第一个案例是腾讯,腾讯认可AI生成作品的著作权,但是认为著作权归属于研发方;第二个案例是北沪 2020 年出来一个判决,它是认为不构成著作权。核心要点就是在因为我们国家的著作权法很明确,因为首先是要独创性,独创性目前做到这个程度是特别我们智能化越来越发展,是能做到的最核心的,因为著作权保护的是一个人的创造性,也就是它的背景创作的是人。通过人工智能产生作品,按照现行的法律规定,是不纳入著作权保护的。现在主流的观点是这样的,著作权法是为了保护人的创造性。如果通过AIGC,在这个过程中不是通过简单的提示词,而是通过跟 AI 深度的互动,合作完成一个作品的,在这种情况下,大部分观点认为这就可以纳入著作权保护了。 如果人的因素介入非常多,在交互各方面的过程深度参与的话,是可以作为一个作品来保护的。创作的过程中加入了人的智慧,这时候已经可以将它称为作品了。人工智能不是纯粹的工具,它还可以让用户深度参与,但是这种深度参与难以界定。 在国家立法监督执行的过程中,也需要有技术力量的介入。需要做一些监管和知识产权的保护跟踪,比如通过区块链来登记作品,并进行追踪溯源和最终确认等。未来在大模型时代,国家一定会慢慢地把这个事情澄清,安恒也会通过技术力量去覆盖定义和监管办法,最终能够解决甲方的问题。 法律是上层建筑,技术是底层,技术基础最终还是要在规则层面去适应发展。以前的知识产权都是要先授权再使用,非常不适合现今的互联网。在立法层面也在考虑,是不是要先使用后付费,不用先授权。用了数据之后,再去支付给知识产权人相关费用,这样的制度更合理,也能提高创作效率。这也需要通过立法层面解决这样的发展问题。 合规声明:本文节选自安恒信息发布会,属于公开资料,如需全文请后台留言。 - end - 欢迎加入产业交流群! 欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的产业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。 网络安全相关报告 1. 为什么网络安全公司很难把渠道做好?| 产业调研 2. 甲方怎么看网络安全行业?| 产业调研 3. 海外网络安全和云计算大厂发展趋势(百页PPT) 4. 专家眼中疫情对网络安全行业的影响 | 产业调研 5. 网络安全公司的渠道战争已经打响 6. 为什么教育和医疗行业未来两年是网安公司必争之地?| 产业调研 7. 从网安龙头公司看渠道建设细节 | 产业调研 8. 一文读懂城市安全运营 | 产业调研 9. 读完此文,你还觉得启明星辰佛系吗? 10. 安恒信息:我们心目中的未来大白马 11. 安恒信息:高质量的高增长,难能可贵 12. 绿盟科技:有一种上车机会叫低于预期(深度) 13. 态势感知行业还能高速增长多久? 14. 南洋股份:防火墙之王,战略股东引发质变 15. 中国网络安全行业细分领域IDC数据大汇总 16.网络安全产品从入门到精通 17.海外专题:寻找中国网络安全公司中的Palo Alto(深度) 18. 奇安信基本面及虎符生态战略解密(30页PPT) 19. 迪普科技:中国应用交付产业的希望(深度) 20. 为什么网络安全公司纷纷布局EDR(深度) 21. 奇安信:六年磨剑,登顶江湖(深度) 22. Zscaler:云安全服务与接入领头羊(30页PPT) 23. Okta:身份认证独角兽(深度) 24.产业调研:寻找中国OKTA 25.深信服:SASE蓝海中的耀眼新星(深度) 26.奇安信:高增长的背后,探究网安龙头的成长密码(深度) 27.如何理解深信服的核心竞争力? 28.如何研究一家网络安全公司? 29.拥抱网络安全的小波段和大时代 30.奇安信:创新业务实力强大,助推公司成为全球网安龙头(深度) 31.产业调研:飞塔是个神奇的公司 32.产业调研:海外专家怎么看云计算和网络安全? 33.数据安全法带来的一些变化 34.产业调研:等保测评升级,网安行业需求大提升 35.产业调研:甲方视角下的网安行业边际变化 36.产业调研:解密传说中的长亭科技 37.亚信安全:懂网又懂云的网络安全公司(60页PPT) 38.从奇安信中报看新赛道布局的重要性 39. 《个人信息保护法》落地,网安行业变天了 40. 绿盟科技:励精图治,继往开来(深度) 41. 网安公司三季报分化之谜 42. 深信服:重构防火墙,用意深远 43. 读完Fortinet三季报,我对网安行业又有了信心(附纪要) 44. Palantir:野心贼大,想做世界的创新引擎(附纪要) 45. 从Crowdstrike看中国网安公司发展方向 46. 为什么中国没有真正的云安全公司? 47. 产业调研:传统网络安全公司面临的困境——温水煮青蛙 48. 产业调研:数据安全吹得很热,未来如何落地? 49. 产业调研:威努特董事长谈工控安全 50. 产业调研:再论数据安全 51. 绿盟科技:业绩预告验证景气度,网安行业不悲观 52. 山石网科:防火墙龙头,销售端发力助推高增长(深度) 53. 纬德信息:电力信息安全小巨人(深度) 54. 安恒信息:数据安全领头羊(深度) 55. 产业调研:HW具体怎么做? 56. 天融信:国内防火墙龙头,创新业务高增长(深度) 57. 产业调研:网络安全运营中心如何建设? 58. 产业调研:网络安全行业如何做信创? 59. 产业调研:深信服SASE3.0要做什么? 60. 产业调研:奇安信研发平台详解 61. 产业调研:深信服产品理念越来越像PaloAlto 62. 深信服股价见底了吗? 63. 产业调研:深信服如何应对居家办公带来的IT需求? 64. 产业调研:从销售视角观察,2022年网络安全行业景气度到底行不行? 65. 安恒信息:研究框架(200页PPT) 66. 产业调研:数据安全一线专家眼中的市场 67. 全世界都在等奇安信盈利 68. 产业调研:网络安全行业有哪些新变化? 69. 数据安全管理已经深入至工业领域 70. 商用密码行业未来三年景气度如何? 71. 产业调研:工业数据安全的发展前景 72. 安博通:网安行业景气度修复,上游厂商最先受益(深度) 73. 云涌科技:电力信息安全头部厂商(深度) 74. 威胁情报:对网安公司来说越来越重要(深度) 75. 奇安信的几个新变化 76. 奇安信Q-GPT安全机器人和大模型卫士详解 法律声明 本公众订阅号(计算机文艺复兴)为国泰君安证券研究所计算机研究团队依法设立并运营的微信公众订阅号。本团队负责人李沐华具备证券投资咨询(分析师)执业资格,资格证书编号为S0880519080009。本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用,如因侵权行为给国泰君安证券研究所造成任何直接或间接的损失,国泰君安证券研究所保留追究一切法律责任的权利。
大部分微信公众号研报本站已有pdf详细完整版:https://www.wkzk.com/report/(可搜索研报标题关键词或机构名称查询原报告)
郑重声明:悟空智库网发布此信息的目的在于传播更多信息,与本站立场无关,不构成任何投资建议。