关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1058人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今年流行“一刀切”发型 好打理又轻盈

成铭聊发型 浏览 19769

余秋雨夫妇手牵手逛街!男方头发花白马兰仍优雅

盖饭娱乐官方号 浏览 16771

预计2026年正式发布 全新现代i20渲染图曝光

车质网 浏览 942

T恤搭半身裙才是夏季标配 轻松掌握时尚密码

虎哥说衣不二 浏览 18965

总负债2.4万亿,上市15年,万亿恒大迎“剧终”?

每日经济新闻 浏览 12640

图片报:巴黎有意科隆19岁边锋赛义德-马拉,已与球员方面接触

懂球帝 浏览 929

在南海坠毁的美军机比F-35还贵 单价1亿美元

参考消息 浏览 692

东风计划2026年将欧洲销量提升至8万辆

盖世汽车 浏览 1512

东体:后腰马修斯-尤萨接近加盟海港,球队第四外援瞄准锋线

直播吧 浏览 12670

韩国3岁女童被遗弃饿死,DNA检测结果更是震惊所有人

趣看热点 浏览 814794

终于,英伟达崩了!

华尔街见闻官方 浏览 12429

古代罪犯,为何经常被发配到边关,而不是直接杀掉?原因很简单

趣看热点 浏览 26321

伊能静儿子逛成都,恩利吃美食被辣出表情包

疯说时尚 浏览 932

德佬:我本来不想让KK的团队得逞,但最终不得不把他卖掉

懂球帝 浏览 1745

2024年第一次油价下跌或在本周三进行 但预计跌幅不大

智车情报局 浏览 12895

优衣库在华跑偏

北京商报 浏览 1014

年轻人“追金弃钻” 开启一场消费认知的觉醒

新摘 浏览 15004

iPhone 15 Pro机型有望配8GB内存,标准机型内存升至LPDDR5规格

IT之家 浏览 19228

加沙停火草案被美国一票否决 中国大使发出"灵魂三问"

每日经济新闻 浏览 11922

宝马电车销量反超蔚来小鹏,到底谁在买?

极客公园 浏览 15929

ELLE盛典红毯状况百出,有人摔倒、有人背手像逛大街,秒变菜市场

萌神木木 浏览 876
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1