关闭广告

LLM越狱攻击威胁被系统性高估? 基于分解式评分越狱评估新范式

机器之心Pro1059人阅读



JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为CISPA 教授张阳。

引言

回想一下,老师会如何批改考试中的开放题:如果考生只在开头写「答:」,但是后面却没有给出答案,当然不能得分;反之,如果他开头说「我不会」,却在后面写出了正确答案,那就该得分。另一方面,还有的答案看似组织良好、道理高深,却句句不在点上,那么依然只能低分;只有当回答准确且全面地涵盖了解决问题的关键要点时,其得分才较高。老师给分的依据,在于答案的实际内容和关键点,而不在于答案的开头、词藻或者形式。

可惜,目前 LLM 越狱攻击(Jailbreak)的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标,要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象,无法覆盖得分的要点,导致评估容易出现偏差,很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

为了克服这一难题,来自CI

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

林俊杰疑似回应恋情:无需多言

粵語经典歌單 浏览 399

白宫:拜登明白允许乌军使用美国武器打击俄领土的后果

参考消息 浏览 68275

同样被网友玩梗,李湘给张纪中“上了一课”?

深析古今 浏览 738

阳光保险,让人们拥有更多的阳光

网易财经 浏览 19023

AI发展日新月异如何跟上变化?徐汇工匠学院人工智能训练师课程助你一臂之力

上观新闻 浏览 649

真正会搭配的女人,夏季都懂得“穿简不穿繁”,时尚洋气不过时

Yuki时尚酱 浏览 11310

莫迪视察印度首艘国产航母:名字就让巴基斯坦睡不着

鲁中晨报 浏览 902

这一天,坐在陈宝国身边的刘德华,展现了他在内娱的江湖地位

不八卦会死星人 浏览 12466

外媒曝吴孟达遗产方案:太太分一半 其余给子女

网易娱乐 浏览 26960

涪陵榨菜的创业者们陆续退场

斑马消费 浏览 1451

德云社张鹤伦凌雾天唱歌,好惬意

细语 浏览 1012

法式纯电钢炮 2026款标致E-308 GT新车图解

车质网 浏览 1611

跌到“买房送黄金”的杭州楼市,与阿里裁员有多大关系?

财经十一人官方 浏览 16814

加沙停火一个月:民众苦难如常 美以又有新动作

国际在线 浏览 645

宝马历史上最神秘的概念车之一:宝马AVT

老爷车 浏览 12716

冯德莱恩:欧盟将向乌提供紧急能源援助

每日经济新闻 浏览 728

杉杉股份易主:任元林接盘,“民营船王”入主锂电材料巨头

征探财经 浏览 1059

俄乌“和平计划”磋商顿巴斯成焦点

环球网资讯 浏览 5

DiDi联手香港科大首创自动旅行规划AI

科技行者 浏览 638

蔚来火速回应指控

华尔街见闻官方 浏览 967

日本大妈的穿搭技巧太绝了!照着学,随便穿也能显年轻10岁

静儿时尚达人 浏览 666
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1