首页全站导航手机版加入收藏关注我们
全站导航
  • 手游行业
  • 游戏问答
  • 新游前瞻
  • 游戏动态
  • 视频攻略
  • 新游预告
  • 热游视频
  • 周边视频
  • 资讯中心
  • 游戏攻略
  • 礼包中心
  • 热门攻略
  • 游戏专区
  • 手游合集
  • 手游分类
  • 手游开服
  • 手游开测
  • 全部手游
  • 苹果排行
  • 安卓排行
  • 单机排行
  • 网游排行
  • 福利美图
  • 吐槽八卦
  • 内涵GIF
  • 游戏截图
  • 游戏壁纸
关注我们
手游巴士

资讯

  • 资讯
  • 游戏
  • 视频
  • 礼包
  • 图片
  • 首页
  • 游戏中心
  • 手游行业
  • 新游资讯
  • 新游预告
  • 游戏活动
  • 综合资讯
  • 硬件资讯
  • 游戏攻略
  • 游戏评测
当前位置:首页 > 手游资讯 > 业界资讯 > 大模型安全PK:怎么就让一家车厂拿了一等奖!

大模型安全PK:怎么就让一家车厂拿了一等奖!

2024-11-01 12:33 来源:shouyoubus.com 作者:佚名

用手机看

扫描二维码随身看资讯 使用手机 二维码应用 扫描右侧二维码,您可以
1.在手机上细细品读~
2.分享给你的微信好友或朋友圈~

一家车厂,冲进了大模型安全第一梯队。

最近,中国计算机学会(CCF)举办了大模型安全挑战赛,参赛者包括一众大模型安全公司,知名研究机构等。

激烈的角逐后,成绩放榜,让人意外:

第一梯队的玩家里,竟然有一家车厂,而且还是一家成立不到10年的新势力,理想。

大模型安全PK:怎么就让一家车厂拿了一等奖!

为什么一家车厂能冲进大模型安全第一梯队?

大模型安全都有哪些问题,怎样解决?

如何建设大模型安全能力?

带着行业关心的问题,智能车参考对话了理想汽车资深安全总监路放及其团队成员熊海潇、刘超,探究理想在AI安全上的思考。

大模型安全PK:怎么就让一家车厂拿了一等奖!
△理想汽车 路放

在路放看来,理想参赛并不是为了获奖,也不是为了炫技。

参赛只是为了验证能力,获奖就是能力的证明,进一步促进自我提高。

参赛的最终目的,归根结底,还是为了守护100万个家庭的AI安全。

大模型都有哪些安全问题?

大模型正在重塑一切,然而新事物为人们带来新体验的同时,也带来了新的问题,具体到安全领域,包括Prompt注入、回答内容安全、训练数据保护、基础设施与应用攻击防护等等。

问题之多难以尽述,因为大模型面对的语言空间是无限的,这就导致大模型安全和自动驾驶一样,都有着无穷无尽的Corner Case。

所以,路放针对部分常见问题进行了解析,比如Prompt注入。

路放表示,大模型的Prompt注入和安全领域常见的SQL注入很多相似之处。

只不过以前是用编程语言制造bug,如今则是利用人类自然语言的“bug”,即通过语言的二异性,指代关系的错乱,绕过大模型前侧的防护。

比如防护方输入指令,告诉大模型,你要做一个正直的大模型,诚实的大模型,输出的内容都要三观正。

攻击方此时进行prompt注入,告诉大模型:前面的话都是“逗你玩儿”。

由于大模型具备上下文的理解能力,就会忽略掉前面的安全指令。

攻击者甚至可以利用Prompt注入劫持大模型,让大模型按照其指定的行为工作。

大模型安全PK:怎么就让一家车厂拿了一等奖!

除此外,攻击者还可以从数据本身入手,篡改训练数据,制造问题。

比如谁是NBA的G.O.A.T(历史最佳运动员)?

在大模型的训练集中,可能存放的答案是乔丹,但攻击者可以篡改为蔡徐坤。

由于训练数据是错误的,那大模型获取的能力自然会有异常,在回答有关问题时,就会闹出笑话。

如果是严肃事件,还会带来更大的麻烦。

数据问题和promt注入,有时是联动的。

比如“奶奶漏洞”,也就是此前ChatGPT被曝出的“Windows序列号数据泄露问题”:

大模型安全PK:怎么就让一家车厂拿了一等奖!

路放透露,这种通过“角色扮演”,利用特定prompt引发的机密数据泄露,目前还不会在理想的AI助手“理想同学”上出现。

但考虑到理想目前的“车和家”定位,为了充分保障家庭隐私安全,团队“料敌于先”,内部也在进行相关案例测试。

prompt注入和数据投毒,都是AI时代由于技术范式转变产生的新手段。

除此外,路放介绍,还有一种恶意资源调度方式,是传统的攻击手段,类似DoS(Denial of Service)攻击,从外部发起对大模型的广泛攻击,过量调度服务,耗尽大模型的推理资源,造成正常需求堵塞。

安全问题那么多,攻击方式各种各样,如何提高大模型的安全能力呢?

攻击-防御-评估三角

“没有评估,就没有提高”(If you can’t measure it, you can’t improve it)。

路放引用管理学大师彼得·德鲁克的名言,引出了理想的评估三角,这就是理想大模型安全建设的秘诀。

所谓评估三角,包括防御-攻击和评估,三者一体,互相促进迭代。

首先是防御,这是大模型安全的核心问题,被攻击了怎么防?

在最早期,安全问题可以依靠简单的限制敏感词输入,进行过滤。

而现在由于技术范式的转变,模型在训练时会将安全问题“学”进去,很难前置过滤。

如果过滤条件太严格,有些数据不能用,会影响模型的生成质量。

但如果限制的太宽松,效果又不大,非常矛盾。

大模型安全PK:怎么就让一家车厂拿了一等奖!

路放透露,目前理想汽车在前端采用的是“纵深防御”方式,一道防线接着一道防线,防线之间串并联,AI模型和规则手段全都上。

其中一个代表方向是对齐。

对齐即在模型训练时通过人类的强化反馈,做安全能力的对齐,让模型意识到人类的偏好,比如道德观,使其生成的内容更符合人们的期望,成为一个“好大模型”。

比如大家都很熟悉的Meta,在发布LLAMA 3.1时,还同时公布了两个新模型:

Llama Guard 3和Prompt Guard。

前者是在LLAMA 3.1-8B的基础上进行了微调,可以将大模型的输入和响应分类,从大模型自身入手保护大模型。

Prompt Guard则是基于BERT打造的小型分类器,可以检测Prompt注入和越狱劫持,相当于在模型外加了层护栏。

大模型安全PK:怎么就让一家车厂拿了一等奖!

其实这种从模型本身入手,加上在外套壳的思路,和解决端到端下限的思路一样。

不过一味的防御,并不能提高大模型的防御能力,需要“以攻促防”。

熊海潇对此解释称,用AI领域的话术,“以攻促防”也叫数据闭环,要有海量且多样的攻击样本,来进行内部对抗,这样才能够提高防御能力。

因为不管是利用模型自身形成安全能力,还是通过外在的安全护栏保护模型,本质上都是在训练特定领域的东西,主要挑战就在于数据或者说攻击样本够不够。

都有哪些攻击方式,能够“以攻促防”?主要是三种:

大模型自我迭代

自动化对抗

人工构造

首先,大模型自我迭代,是指人可以给大模型提供类似思维链的一些指导思想,让大模型根据指导思想去生成对应的能力。

这样就用自动化代替了部分人工构造的过程。

而且因为大模型的泛化能力很强,所以它可以举一反三,比如前面提到的“奶奶问题”,大模型学习到后还能相应地解决很多其他“角色扮演”问题。

大模型安全PK:怎么就让一家车厂拿了一等奖!

然后是自动化对抗,相对更透明,有点像前面提到的“对齐”工作,需要借助自家大模型在内部做对抗性训练。

两种工作都是自动化完成的,这是由大模型安全工作的特性决定的。

因为大模型面临的语言空间是无限的,因此必须要用自动化工具,去生成海量的测试用例尝试攻击,寻找脆弱点,这样才能提升大模型的防御能力。

那人工构造成本高,速度还慢,是不是就没什么必要了?

路放的回应很有意思:

人工不能被完全取代。

路放表示,自动化固然可以减轻人的工作量,但仍然需要人去发现更上一层的“攻击模式”,新的攻击模式可能会创造出更多新的攻击语料。

如果一味的扩大攻击语料的量,而不寻找新的攻击模式,大模型就会因为受到过多同种语料攻击,产生“耐药性”,整体安全能力就进入了瓶颈。

如果将内部攻防比作一场演习,那前面的自动化工作就像冲锋在前的士兵,人工构造则负责制定战略,起到将军的作用。

正所谓“千军易得,一将难求”,大模型安全也是如此。

大模型安全PK:怎么就让一家车厂拿了一等奖!

攻击和防御,是大模型安全建设的基础,但还不完整。

路放认为,大模型安全一定要有一个动态的评估基准。

评估,就是去评估防御侧的能力,设定基准来判断大模型的防御能力有没有回退,符不符合团队的要求。

只有同时建立了防御、攻击和评估能力,大模型安全能力才能不断提高:

攻击侧发现了问题,反馈给防御侧,提高防御能力,评估的基准随之提高,为攻击侧创造了新的努力空间,三者形成链路,提高整体的安全能力。

就好像大模型开始可能只具备小学生的知识,通过练习,在小学生的阶段考到了100分,那评估侧这时会将标准提高到初中生,然后大模型此时的安全能力可能也就刚及格。

再后来又提高到初中生标准的80分,虽然还没满分,但显然能力已经比过去100分的小学生高多了。

AI领域的安全团队有很多,具备安全能力的车厂有很多。

进入第一梯队的,为什么会是一家车厂,又为什么会是理想?

第一梯队,为什么是理想?

路放认为,理想之所以有很好的大模型安全能力,得益于理想内部对AI很重视,对AI安全很重视。

对AI重视的表现有很多。

首先,在理想内部,AI的战略优先级很高。

最直接的证明是,理想自研了大模型,后续的安全建设有了很好的基础。

大模型安全PK:怎么就让一家车厂拿了一等奖!

路放透露,因为大模型是自研的,因此理想对大模型具有控制权,可以自行迭代,升级安全能力。

对AI安全的重视直接体现在,理想专门为大模型建立了安全保障团队,而不是只将安全作为运营的一部分。

理想还透露,更有甚者,由于AI的快速发展,甚至有玩家忽视了AI安全,将训练数据暴露在风险之中。

与之相对的,理想则是把安全融入到产品的全生命周期。

从最底层的硬件基础设施,到软件一开始的需求评定,再到后来的功能设计,还有最终服务部署,安全管理贯穿始终。

在路放看来,这也是对100万个家庭负责。

毕竟理想已经交付了100万辆车,每辆车不可能只坐一个人,理想的服务实际覆盖到了数百万人。

大模型安全PK:怎么就让一家车厂拿了一等奖!

广泛的用户群体,带来广泛的场景,为理想大模型提供了实战检验场地,让路放和团队看到了更多的“Bad Case”。

正是在不断解决Bad Case的过程中,理想的大模型安全能力得到提高,最终冲进行业头部。

在头部玩家看来,目前行业还存在哪些限制和难题呢?

路放表示,实际上做大模型安全很考验工程能力,行业将此称之为“低摩擦”:

占用的资源要尽量少,但又要实现很好的效果。

轻量化兼顾高性能,是行业的天然限制,将长期存在,不可避免。

除此外,目前行业还存在一些棘手难题,特别是大模型安全能力回退的问题。

路放举例称,大模型在迭代训练时,数据语料可能具有倾向性,就像人“近朱者赤近墨者黑”,模型的“性格”也会在训练后发生变化。

比如假设某次大模型的升级是加强了娱乐性的训练,那模型整体就会变得偏向轻松搞笑,升级后回答问题时就不太谨慎,导致安全能力下降。

大模型安全PK:怎么就让一家车厂拿了一等奖!

总结一下,理想获得成绩的原因,AI的高战略优先级是根源,推动自研大模型落地,然后以此为基础,经年累月之下,专业团队开花结果,斩获佳绩。

实现自我证明后,理想的系统安全能力正在受到行业关注。

路放透露,目前理想已受邀参与C-ICAP(中国智能网联汽车技术规程)的规程制定。

不知不觉间,新势力理想已经成为行业规则的制定者之一,成为推动行业发展的重要力量。

是时候重估理想了。

爆款≠冰箱彩电大沙发

一叶知秋,理想在大模型安全上的能力建设,体现的是“技术理想”的转变:

2023年,理想全年研发投入为106亿元,占营收比约为8.6%。

2024年上半年,理想研发投入累计超60亿元,占营收比进一步提高至10.5%。

研发投入持续领跑新势力,这是理想在激烈的竞争中,持续爆款的根本动力。

研发带来的能力立竿见影。

在过去,路放及其团队支撑的智能座舱已经站稳了第一梯队。

今年下半年以来,理想智能驾驶进展加速,无图NOA上车,实现“全国都能开”,最近E2E+VLM全量推送,新范式进一步提高了能力上限。

大模型安全PK:怎么就让一家车厂拿了一等奖!

看得见的“冰箱彩电大沙发”很容易复刻,看不见的智能化体验则不然。

这也是为什么行业竞争如此激烈的今天,市场相继推出多款“奶爸车”后,理想月交付量依然持续攀高,在新势力中率先突破100万辆交付。

这背后代表着100万个家庭的认可,100万个家庭用脚投票,选择了更好体验的产品。

而这种美好体验,正是由于理想对AI各个方面,包括应用侧和安全侧的重视。

责任编辑:落木

文章内容举报

以上就是手游巴士为您提供《大模型安全PK:怎么就让一家车厂拿了一等奖!》的详细内容,更多精彩内容请继续阅读上一篇《卡拉彼丘S8版本「蚀刻迷局」开启!《Pop子和Pipi美》联动玩法预热》

表羞涩嘛~喜欢就点我

分享吧~提高逼格:

相关阅读

  • 2024-11-01 大模型安全PK:怎么就让一家车厂拿了一等奖!

  • 2024-11-01 卡拉彼丘S8版本「蚀刻迷局」开启!《Pop子和Pipi美》联动玩法预热

  • 2024-11-01 奥比岛「小泡芙」异闻收集季全新来袭!限定主题装扮、家具呆萌上线!

  • 2024-11-01 携手前行,《暗黑破坏神:不朽》2024玩家调研分享会回顾

  • 2024-11-01 陶德原本不看好特洛伊·贝克出演《夺宝奇兵:古老之圈》中的印第安纳·琼斯

  • 2024-11-01 《地铁:觉醒》开幕7分钟实机演示 11月7日发售

  • 2024-11-01 《雪人兄弟:仙境》Steam页面上线 11月28日发售

  • 2024-11-01 《地平线:零之曙光》重制版与原版对比 画面细节增强

  • 2024-11-01 像素风动作类肉鸽弹幕射击游戏《史莱姆3K》现已推出1.0正式版 获特别好评

  • 2024-11-01 《Blades & Battles》Steam页面开放 发行日期待定

  • 2024-11-01 《龙腾世纪:影障守护者》认错性别后 会教训你2分钟

  • 2024-11-01 《黑巢:蛇之契约》上架Steam平台 蛇类娘化养成

  • 2024-11-01 潜行恐怖解密游戏《地狱之种:全章节》现已在Steam平台正式推出

  • 2024-11-01 THQ Nordic将推出一款新《海绵宝宝》游戏 2025年发售

  • 2024-11-01 多人肉鸽《天启派对》万圣节狂欢:40%史低折扣+限时免费Demo上线!

  • 2024-11-01 前《GTA》技术总监:《星鸣特攻》开发商值得再给一次机会

  • 2024-11-01 玩家想给《龙腾世纪:影障守护者》添加DEI、ZZZQ等标签

  • 2024-11-01 游戏史上第二!《使命召唤》系列销量破5亿

  • 2024-11-01 顶尖团队打造全新恐怖游戏《神秘潮汐》明年发售

  • 2024-11-01 《龙腾世纪》新作发售日Steam同时在线玩家超7万

  • 2024-11-01 《吸血鬼:避世血族2》新预告展示卡玛瑞拉眷属

  • 2024-11-01 索尼关闭《星鸣特工》工作室是为了进一步垄断市场

  • 2024-11-01 《龙腾世纪4》Steam多半好评 战斗系统不错动作流畅

  • 2024-11-01 《地平线:零之曙光》重制版Steam褒贬不一:画面强 需PSN账户

  • 2024-11-01 过去十年《刺客信条》系列为育碧创造了40亿美元收入

热点推荐

  • 多人肉鸽《天启派对》万圣节狂欢:40%史低折扣+限时免费Demo上线!多人肉鸽《天启派对》万圣节狂欢:40%史低折扣+限时免费Demo上线!
  • 落木萧萧《第五人格》二十四节气演绎录-【霜降】篇线下活动回顾落木萧萧《第五人格》二十四节气演绎录-【霜降】篇线下活动回顾
  • 中国邮政与《黑神话》联动邮品 游戏界的猴票来了中国邮政与《黑神话》联动邮品 游戏界的猴票来了
  • 蛋仔派对【赛季情报】S20赛季皮肤爆料,龙族、精灵、骑士皮肤华即将登场!蛋仔派对【赛季情报】S20赛季皮肤爆料,龙族、精灵、骑士皮肤华即将登场!

热门游戏

  • 口袋苍穹

    口袋苍穹

    立即下载
  • 时逆

    时逆

    立即下载
  • 剑侠世界

    剑侠世界

    立即下载
  • 铁甲风暴

    铁甲风暴

    立即下载
  • 三国志奇侠传

    三国志奇侠传

    立即下载
  • 蜀山战神

    蜀山战神

    立即下载

热点资讯

更多+
  • 刘慈欣献声!《流浪地球》手游预约正式开启
    刘慈欣献声!《流浪地球》手游预约正式开启
  • 《天龙八部2:飞龙战天》手游更新活动开启
    《天龙八部2:飞龙战天》手游更新活动开启
  • 缤纷搭配 定格时尚《光遇》时装节:展示你的个性装扮
    缤纷搭配 定格时尚《光遇》时装节:展示你的个性装扮

小编热推

更多+
奥比岛「小泡芙」异闻收集季全新来袭!限定主题装扮、家具呆萌上线!

满分攻略

  • 暗喻幻想第四章迷宫通关路线顺序详解

    满分 暗喻幻想第四章迷宫通关路线顺序详解

    关
    查看全部
  • 莫塔之子第九章怎么过-莫塔之子第9章30区通关攻略

    满分 莫塔之子第九章怎么过-莫塔之子第9章30区通关攻略

    关
    查看全部
  • 莫塔之子第七章怎么过-莫塔之子第7章旧巴拉哈特废墟通关攻略

    满分 莫塔之子第七章怎么过-莫塔之子第7章旧巴拉哈特废墟通关攻略

    关
    查看全部

热门礼包

更多+

三国杀

三国杀 剩余:500/500 有效日期:2017-05-02

领取

三国杀

领取

三国杀愚人节礼包

三国杀愚人节礼包 剩余:500/500 有效日期:2017-05-31

领取

三国杀愚人节礼包

领取

三国杀独家礼包

三国杀独家礼包 剩余:500/500 有效日期:2017-07-26

领取

三国杀独家礼包

领取

三国杀移动版国庆礼包

三国杀移动版国庆礼包 剩余:500/500 有效日期:2017-11-29

领取

三国杀移动版国庆礼包

领取

一步高升新手礼包

一步高升新手礼包 剩余:491/1000 有效日期:2019-09-14

领取

一步高升新手礼包

领取

奶块首发大礼包

奶块首发大礼包 剩余:345/1900 有效日期:1970-01-01

领取

奶块首发大礼包

领取

奶块成长礼包

奶块成长礼包 剩余:297/1167 有效日期:2017-12-31

领取

奶块成长礼包

领取

植物大战僵尸2特权礼包

植物大战僵尸2特权礼包 剩余:232/300 有效日期:2018-05-31

领取

植物大战僵尸2特权礼包

领取

银河战舰代言人公测礼包

银河战舰代言人公测礼包 剩余:232/300 有效日期:2018-10-01

领取

银河战舰代言人公测礼包

领取

植物大战僵尸2豪华福包

植物大战僵尸2豪华福包 剩余:230/500 有效日期:2018-07-31

领取

植物大战僵尸2豪华福包

领取

热门合集

更多+
  • 适合女生玩的HTML5游戏

    查看合集
  • 2017手机游戏排行榜

    查看合集

手游资讯

NEWS
手游行业 手游活动 新游前瞻 综合资讯

最全攻略

RAIDERS
游戏资料 游戏攻略 硬件资讯 游戏问答

视频中心

VIDEO
视频攻略 新游预告 热门游戏 周边视频

游戏中心

GAME
手游合集 游戏分类 发号中心 热门专区

手游排行

TOP 100
安卓榜 苹果榜 单机榜 网游榜

手游巴士

手游巴士

  • 关于我们
  • 商务洽谈
  • 联系我们
  • 友情链接
  • 版权声明

Copyright © 2020-2022 手游巴士 shouyoubus.com, All Rights Reserved.赣ICP备2021011040号