关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02135人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

记者当骑手体验外卖大战:4小时送17单挣88元

环球网资讯 浏览 2098 07-21

美媒探访内蒙古:中国AI的一张“王牌”,藏在这里

观察者网 浏览 17 12-12

8月造车新势力:零跑小鹏再创单月销量新高

时代财经 浏览 227 09-02

辛芷蕾威尼斯封后!40岁的她,比20岁更美

LinkFashion 浏览 210 09-09

香波特:讨厌在尼克斯&骑士打3D 到了国王才感觉解放

直播吧 浏览 189 09-22

今年1-8月,浙江新能源汽车产量71.8万辆,比去年同期增长了52.8%

财闻 浏览 159 09-26

激光雷达厂商涌入机器人赛道,业内预计今年出货量将达数十万台

第一财经资讯 浏览 284 08-22

记者:只有在利物浦告知交易无法成行时,伊萨克才会考虑留队

直播吧 浏览 294 08-12

巷战硬折扣 京东、美团追赶盒马NB

经济观察报 浏览 303 08-19

男子朋友圈称教育局长因舆情被免职遭行拘:很冤枉

大风新闻 浏览 213 09-20

夏日解暑神器!6款自制冰饮,比奶茶店还好喝!

Yuki女人故事 浏览 2782 07-15

同样是企业贷款,为何有人在四大行秒批,有人却被拒?答案藏在细节里

闺蜜财经 浏览 2835 07-26

希勒评英超第8轮最佳阵:哈兰德&B费&马奎尔在列,教练阿莫林

懂球帝 浏览 84 10-22

盛夏最清爽的三组配色,很好看!

Yuki女人故事 浏览 6051 07-12

9月1日法庭见!KK集团起诉名创优品

国际金融报 浏览 275 08-19

陈幸同击败孙颖莎首次登顶WTT冠军赛:有点儿不敢相信

文汇报 浏览 375 08-12

惨!拍完被雪藏8年,李幼斌耗资1亿拍战争大片,没上映就被判死刑

靠谱电影君 浏览 66 11-06

见识中国实力后30多国在联合国发提议 美国反对无效

现代小青青慕慕 浏览 238 09-08

抗日名将吉鸿昌后人回忆外祖父遗书:为时代而牺牲

红星新闻 浏览 3717 08-09

"红老头"被刑拘,会传播艾滋么?

网易健康 浏览 3098 07-09

美军大兵压境 委内瑞拉发现一邻国与中情局勾结

上观新闻 浏览 82 10-29
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11