关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02319人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

Google与约翰霍普金斯大学联手打造AI"审计官"

科技行者 浏览 194 12-23

金鸡奖开幕星光黯淡,周冬雨开场陈飞宇主持,网友感慨电影圈萧条

萌神木木 浏览 189 11-12

对话钦培吉:77岁的莲花,不做六边形战士

网易汽车 浏览 322 09-29

美股多板块盘中集体重挫,一份假想AI报告引发的抛售潮

华尔街见闻官方 浏览 160 02-24

约合人民币47.10万元起 阿维塔11在香港上市

太平洋汽车 浏览 467 05-31

苹果发布 M4 iPad Air:加入 C1X 芯片 4799 元起售

威锋网 浏览 169 03-03

释永信被查:与多名女性保持不正当关系并育有私生子

少林寺官方网站 浏览 3159 07-28

葡萄牙足协官方:8月8日到8月11日比赛将为若热-科斯塔默哀

直播吧 浏览 3204 08-06

海军四川舰顺利完成首次航行试验

央视新闻客户端 浏览 131 11-17

从宫廷珍馐到全民日常,海参缘何成为中式滋补新风尚?| CBNData报告

第一财经商业数据中心 浏览 393 09-10

比尔·盖茨警告:AI或成恐怖主义武器且智能无上限

IT之家 浏览 218 01-13

央视主持人再上新 已有多位"00后"

极目新闻 浏览 3057 06-15

香港高等法院任命恒大清盘人为许家印资产接管人

界面新闻 浏览 293 09-17

陈都灵上台领奖,白鹿没鼓掌惹争议,两家疑似因《长月烬明》结怨

萌神木木 浏览 239 12-24

董璇的婚姻,隐患太多了

Yuki女人故事 浏览 408 08-27

军工行业需求正加速释放与恢复 板块迎来多因素共振

金证研 浏览 5246 07-16

20万就能落地这3款豪华B级车 难道还不抄底?

优视汽车 浏览 500 05-17

23.59万起预售!上汽奥迪首款纯电发布,全域NOA+800V架构上车

车东西 浏览 418 08-19

霍夫曼:如果阿隆索留任我就将考虑转会,我本希望能和他坦诚沟通

直播吧 浏览 4487 07-22

华为乾崑智驾累计辅助驾驶里程突破50亿公里

三言科技 浏览 262 09-21

优必选发布全球首个可自主换电人形机器人,副总裁焦继超:未来还能拧螺丝

红星资本局 浏览 3082 08-11
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11