关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02323人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

湖南一花炮厂发生爆炸 有员工躲水沟里被炸飞石块砸头

红星新闻 浏览 8817 06-17

执掌新长安汽车11天,朱华荣拜访任正非

红星资本局 浏览 508 08-11

Noble M10:从车库诞生的英国跑车梦想

老爷车 浏览 206 12-27

活塞GM:康宁汉姆已展现全面能力 也渴望不断进步成为更出色领袖

直播吧 浏览 9010 07-14

超强台风"桦加沙"将正面来袭 最新路径公布

央视新闻客户端 浏览 413 09-23

里程碑!刘铮生涯总抢断超越西热力江,升至CBA历史第13位

懂球帝 浏览 199 01-28

世体:巴尔德吉已接受巴萨的季前体检,预计周一官宣

懂球帝 浏览 4338 07-14

足球报:“专治不服”的河南队回来了,这是河南球迷久违的球队

直播吧 浏览 2532 07-24

马拉松冠军选手冲线时被拦停强行带离 重庆田协通报

环球网资讯 浏览 176 03-17

E句话 | 宗家剧情引入新道具宗氏族谱?

仙女事件簿 浏览 2411 07-18

美团王莆中:将保证美团骑手收入永远在蓝领第一梯队

网易科技报道 浏览 2822 07-18

《中华小当家》或迎大结局:男主角被处决 留下遗言

鲁中晨报 浏览 2647 07-22

外媒:美国一大型风电场突然被美政府叫停 已完工80%

环球时报国际 浏览 2379 08-24

伊朗正式退出与美国的核谈判

央视新闻 浏览 8412 06-14

DeepSeek删豆包冲上热搜,大模型世子之争演都不演了

量子位 浏览 441 08-22

关键时刻委少将为美军"敞开大门" 美压制委军手段披露

澎湃新闻 浏览 234 01-19

儿童冬季呼吸道感染,北京儿童医院专家一文解答

网易健康 浏览 5696 11-16

海南封关,就能半价买豪车了?

汽车公社 浏览 184 12-22

京东宣布全职骑手破15万人,投入20亿发福利,90天跑够3000单返购车款

红星新闻 浏览 4386 07-16

杭州多个小区自来水有异味 当地水务:将赔偿5吨水费

封面新闻 浏览 2579 07-18

6000万镑签7年记者独家:切尔西与莱比锡就西蒙斯达全面协议

直播吧 浏览 4946 08-07
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11