关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02134人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

董璇二婚引关注!本地人都不在这办?

策略剖析 浏览 258 08-27

男子强吻女性被鉴定为"急性精神病障碍" 媒体:谁担责

极目新闻 浏览 5102 08-14

预售19.38万起 吉利银河M9将于9月17日上市

网易汽车 浏览 199 09-05

什么时候才能停止对马思纯身材的审视?

时尚COSMO 浏览 6060 08-02

一箭七星 力箭一号运载火箭发射看点解析

新华社 浏览 12165 08-21

“童颜针”纷争再起!爱美客收割渠道,江苏吴中沦为炮灰?

野马财经 浏览 7454 07-27

记者:巴萨接近与弗朗基-德容续约

懂球帝 浏览 5036 07-29

热门品种大幅回调,多个商品跌停!后续怎么走?

券商中国 浏览 9020 07-29

国民女装拉夏贝尔迎新掌舵人,电商老将2.2亿元买下15亿股票,什么来头?

红星资本局 浏览 9323 07-14

美媒4方交易模拟:老詹父子回克城 加兰加盟湖人 阿伦前往黄蜂

直播吧 浏览 839 07-28

印度47岁男子自称"大使" 开假大使馆近10年才被发现

极目新闻 浏览 6788 07-26

上百机器人“斗舞”上演智趣盛宴

南方都市报 浏览 257 08-23

官方:伊斯坦布尔签下乌兹别克斯坦国脚费祖拉耶夫 转会费750万欧

直播吧 浏览 856 07-31

新一代宝马X5内饰曝光,明年发布!现款50万可入手,哪类人群在买

蜗牛车志V 浏览 271 08-26

“中国三轮车大王”碰瓷问界、智界,暴露行业一个问题

正解局 浏览 7089 07-13

魅族 StarV Snap AI 拍摄眼镜亮相,9 月 15 日发布

IT之家 浏览 192 09-09

专家:特朗普援乌"顶级武器"或是联合防区外空地导弹

红星新闻 浏览 3190 07-17

赖斯:上赛季初我的状态被欧洲杯影响了,现在我感觉好得多

懂球帝 浏览 3069 07-26

大V陈震谈懂车帝辅助驾驶测试:华为依然是目前最好 特斯拉就算了吧

快科技 浏览 3242 07-25

低轨星座竞争白热化:吉利星座如何以“差异化”破局?

DT商业观察 浏览 4306 08-10

规模效应开始显现,古茗半年净利润超去年全年:三条业绩“驱动链”能否抵御下半年行业风险?

每日经济新闻 浏览 244 08-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11