关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro2025-10-13 12:00:02325人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赖清德被迫取消窜访斯威士兰 更多细节披露

澎湃新闻 浏览 102 04-22

90后夫妻砸千万,开马来西亚最大的中国超市

虎嗅APP 浏览 5255 07-22

日在野党提议自卫队改名国防军 中方回应

北京青年报-北京头条 浏览 340 09-26

同是唐国强的骨肉 为何活成了完全相反的样子

黄小仙的搞笑视频 浏览 461 08-28

汉密尔顿:向车队道歉;这赛季已经结束了,把重点放到明年吧

懂球帝 浏览 5157 07-27

无人曝光?董璇二婚,意外推翻了宁静的话

可乐谈情感 浏览 5542 07-16

全家花96万坐熊猫专列 吃的是五菜一汤的盒饭

大风新闻 浏览 498 08-27

曼联放弃唐纳鲁马!大巴黎要价5000万,高薪买更衣室炸弹不合逻辑

罗米的曼联博客 浏览 10361 08-13

华为无线鼠标优享版开售:支持星闪技术,售价 59 元

IT之家 浏览 330 10-14

这一次,窦骁和何超莲都救不了对方

娱乐圈笔娱君 浏览 263 10-23

约等于踢了个加时!本轮中超补时情况:3场比赛总补时超20分钟

直播吧 浏览 5651 07-28

当心!又有中国游客在泰国大街上被绑架

正经社 浏览 9943 07-13

从“二线”到“新势力”榜首,销量大涨156%,零跑首次实现半年度盈利

华夏时报 浏览 492 08-20

筹备新能源项目ING,神龙加码第二次创业

网易汽车 浏览 341 09-24

北京降雪来袭 多家超市保供稳价进行时

中国商报 浏览 216 01-19

斯普利特:杨瀚森暂未100%与球队同步,但他整体表现是正面的

懂球帝 浏览 217 12-29

拼多多“千亿扶持”落地半年,“包邮区”持续扩大,更多地区享受便利网购服务

雷峰网 浏览 251 11-17

零跑全新D系列SUV谍照曝光:尺寸超蔚来ES6,乐道L90迎来劲敌

车评网 浏览 455 08-18

天津联通与华为合作:5G-A宽上行样板点峰值速率突破1Gbps

IT之家 浏览 190 02-03

随着中国男足0-0,日本6-1,亚预赛最新晋级形势出炉:6队已晋级

侃球熊弟 浏览 403 09-10

跳伞队高空炫技、VR沉浸式体验 长春航空展首日亮点纷呈

国际在线 浏览 359 09-20
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-11