关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:0253人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

金秋,穿最浪漫的裤子去散步

Yuki女人故事 浏览 206 08-21

清华女学霸一手打造,三年亏损超10亿,镁佳股份玩不转智能座舱?

子弹财经 浏览 898 07-24

实探印乐大师任20年方丈的白马寺:基本无商业元素

极目新闻 浏览 3866 08-04

NYU研究揭示:模型宽度与能力非线性相关

科技行者 浏览 17 10-28

平均海拔超3600米 探访建在世界屋脊上的无人机试飞场

环球网资讯 浏览 1668 07-26

优质资产持续注入 央企上市公司加力提质

证券时报 浏览 133 09-10

小米17蹭iPhone17热度?卢伟冰:7是一个幸运数字

观察者网 浏览 101 09-20

学者:中印关系就像一棵果树 当务之急是先摘低垂果实

北京日报客户端-长安街知事 浏览 170 09-01

《音乐缘计划2》优秀!各路大咖齐集

你我话娱乐 浏览 41 10-18

男子身穿"醋瓶子"跑马拉松成全场"显眼包" 本人回应

极目新闻 浏览 172 09-22

波音圣路易斯地区罢工持续近三月,谈判陷入僵局

国际金融报 浏览 10 10-28

铜梁龙梯队出征全国青少年足球精英邀请赛,首秀迎开门红

懂球帝 浏览 7662 07-29

31省上半年人均可支配收入出炉 11省份超2万

第一财经资讯 浏览 808 07-18

拥抱Z世代,国潮IP品牌“福福贴贴”创始人到访红豆集团探讨战略合作

Daily每日财报 浏览 7644 07-24

韩国议长:访华之旅让我反思韩国科技投入

环球网资讯 浏览 503 09-11

今年秋冬最流行的4组搭配,照着穿美出新高度!

LinkFashion 浏览 11 10-29

追忆分子生物物理学家王大成院士:系中国蛋白质工程学开创者

南方都市报 浏览 111 09-20

中国必须帮忙:印度已废,特朗普瞄准第二国

浏览 9173 07-14

李小璐二胎风波升级 和贾乃亮复婚传闻才真相大白

新语爱八卦 浏览 2980 07-10

《雪中悍刀行2》将拍?张若昀恐没档期

最爱酷影视 浏览 64 10-01

今日热点:电影《震耳欲聋》定档1004;《惊天魔盗团3》发布新预告……

伊周潮流 浏览 118 09-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11