关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02132人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

重要突破!全球首款类脑脉冲大模型来了

环球网资讯 浏览 194 09-09

赵露思自爆"被驱魔",圈中的内幕一个比一个荒唐

白面书誏 浏览 9634 08-09

警惕手脚麻木背后的健康隐患

浏览 6512 07-14

外媒:面对特朗普的制裁威胁 俄只不过是"耸了耸肩"

环球网资讯 浏览 6587 07-31

蔚来官宣再融资11.6亿美元!

电动知家 浏览 193 09-19

苏亚雷斯谈哲凯赖什:他很优秀,但是还得沉淀一下

懂球帝 浏览 184 09-01

王艺迪4-2陈熠!采访谈后三局改变,强调脑子清醒,喊话四强!

篮球资讯达人 浏览 8202 08-10

特朗普开始审查马斯克 矛头直指SpaceX

界面新闻 浏览 2554 07-22

中国男篮利好:冲改制后首次亚洲杯四强 潜在对手韩国两主力受伤

醉卧浮生 浏览 304 08-11

少林寺新方丈上任干了4件事 件件都像在打释永信的脸

隐于山海 浏览 4301 07-31

粉丝为黄奕母女喊冤:她只是遇人不淑?

小徐讲八卦 浏览 6294 08-13

全场最后一回合布朗尼杀出抢断 冲击篮下压哨上篮!

直播吧 浏览 6723 07-13

加速学习胖东来后,永辉超市亏损更多了

国际金融报 浏览 264 08-22

唐国强也没想到,前妻让两个残疾儿子承受恶意

石场阿鑫 浏览 5845 08-10

苹果新手机开售即破发 砍单到几乎停产

21世纪经济报道 浏览 86 10-27

印航客机坠毁前燃油供应被切断,专家称或因芯片故障

上观新闻 浏览 1467 07-14

QQ新功能内测,支持钱包余额与微信零钱互通到账

IT之家 浏览 951 07-28

14岁少年无证驾驶撞死人车主获刑 监护人拖欠26万赔偿

极目新闻 浏览 479 09-11

暑假一过完,市场又到了工作日两三千万票房状态,九月就《731》还有些热度,等国庆档吧,上壁纸大家收图

电影最TOP 浏览 197 09-10

啤酒微增、白酒下滑超三成,华润啤酒的第二曲线何时迎来曙光?

征探财经 浏览 267 08-23

润田创始人之妻称老公结婚4次5个小孩:卖水的可挣钱了

每日经济新闻 浏览 738 07-23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11