news 2026/4/23 11:24:42

【大模型越狱】【ICML2025】Weak-to-Strong Jailbreaking on Large Language Models

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【大模型越狱】【ICML2025】Weak-to-Strong Jailbreaking on Large Language Models

Abstract

大型语言模型(LLM)容易受到越狱攻击,导致生成有害、不道德或有偏见的内容。然而,现有的越狱方法计算成本高昂。本文提出了一种高效的推理时攻击方法——弱到强(weak-to-strong)越狱攻击,用于诱导对齐后的LLM生成有害文本。我们的核心观察是:越狱模型与安全模型仅在初始解码分布上存在差异。该方法的技术关键在于,利用两个较小的模型(一个安全、一个不安全)在解码阶段对更大规模的安全模型进行概率层面的对抗性修改。我们在来自3个机构的5个开源LLM上评估了该方法,结果显示,仅需对每个样本进行一次前向传播,即可在两个数据集上将“不对齐率”提升至99%以上。本研究揭示了LLM对齐中亟需解决的安全问题。作为初步尝试,我们提出了一种防御策略,但构建更先进的防御仍然充满挑战。相关代码已开源。

  • Code: https://github.com/XuandongZhao/weak-to-strong

1 Introduction

大型语言模型(LLM)的变革能力伴随着对其安全性和可信度的日益关注。若无适当防护,LLM 可能被用于传播虚假信息或实施犯罪活动,促使开发者引入安全措施与对齐技术。开源 LLM 面临独特风险:攻击者可修改模型权重并采用替代解码策略,使事后护栏失效,其安全性完全依赖内在对齐,而内在对齐仍可能被对抗性操纵。即使已对齐的模型,也可能被精心构造的人工提示越狱。

现有自动越狱攻击可归纳为四类:(1) 利用另一 LLM 生成绕过安全协议的对抗提示;(2) 通过反向传播优化对抗提示;(3) 直接微调模型权重以永久改变行为;(4) 在解码阶段操纵生成概率。然而,针对更大规模模型(如 405B)实施上述攻击时,极端计算开销成为瓶颈

本文首先深入分析为何安全对齐的 LLM 在对抗攻击面前依然脆弱。通过比较安全模型与越狱模型的 token 分布,发现分布差异主要集中在初始解码步骤。基于这一“浅层安全对齐”观察,我们提出将对抗解码本身视为针对开源模型的有效越狱方法。实验表明,强大的安全 LLM(如 70B)可被弱小的不安全模型轻易误导,产生有害输出,我们称之为弱到强越狱(Weak-to-Strong Jailbreaking)。该方法无需大量计算资源,也无需复杂提示工程。

弱到强越狱的核心在于:攻击者仅用小型模型即可通过 logit (例如Safe-70B + α ( Unsafe-7B − Safe-7B ) \text{Safe-70B} + \alpha(\text{Unsafe-7B} - \text{Safe-7B})Safe-70B+α(Unsafe-7BSafe-7B)将有害知识“传递”给大型模型在单次前向传播中直接诱导大型模型生成有害内容相比小型攻击模型,被攻击的大型模型可产生更详尽、更危险的内容。

我们在来自 3 个机构的 5 个开源 LLM 上评估了弱到强攻击,结果显示该方法在两个数据集上均达到> 99 % >99\%>99%的攻击成功率(ASR),且被攻击输出的有害程度显著高于小型攻击模型。为缓解该风险,我们提出一种基于梯度上升的初始防御策略,但构建更强防御仍极具挑战。

综上,弱到强越狱揭示了对齐仅作用于初始 token 的表层现象,暴露了对齐机制的深层脆弱性。我们呼吁社区加强对开源 LLM 对齐与安全护栏的研究。本文贡献如下:

  • 发现安全与不安全 LLM 在初始解码分布上的统计差异,表明现有对齐尚不够深入;
  • 提出弱到强越狱攻击,利用小模型在推理时引导大模型生成有害内容,仅需一次前向传播;
  • 在 5 个 LLM 上的实验表明,该方法在两个数据集上 ASR 均超过 99%,显著优于现有方法。

2 Related Work

对齐 LLM 的越狱攻击
受最坏情况对抗鲁棒性评估启发,近期研究探索了语言模型在对抗攻击下的漏洞,并揭示新兴安全风险。除人工越狱外,自动攻击引发重大关切,可分为四类:
(1) 利用 LLM 直接生成绕过安全协议的字符串,如 AutoDAN、PAIR;
(2) 通过反向传播进行对抗提示优化,如 GCG 攻击;
(3) 直接修改模型权重,研究表明仅需少量有害样本微调即可移除开源与闭源模型的安全保护;
(4) 在解码阶段实施攻击,例如通过调节解码参数或强制模型在特定位置生成特定 token,以诱导有害输出。
尽管上述攻击取得进展,它们或需大量反向优化计算,或需众多前向查询,或需精心搜索最优解码参数,针对更大规模模型时仍面临挑战。

LLM 解码
近期工作致力于利用小模型改进大模型解码。对比解码(contrastive decoding)通过减去小模型缩放后的 log 概率来引导大模型采样投机采样(speculative sampling)利用快速小模型提前预测后续 token,降低推理延迟DExperts 在解码时结合“专家”与“反专家”语言模型,实现受控文本生成,聚焦于语言去毒与情感控制代理调优(proxy-tuning)则利用小模型微调前后的预测差异来偏移大模型原始预测,验证其在知识基准上的性能。
与上述工作不同,本文并非在解码时对输出进行对齐,而是利用小模型在解码时对大模型实施攻击,通过 logit 操纵使大模型生成有害内容,从而暴露其漏洞并扩展操纵潜力。

3 Proposed Method

3.1 Analysis of Token Distribution in Safety Alignment

为了探究安全对齐模型为何仍可能生成有害内容,我们比较了安全与不安全模型在面对恶意问题与一般问题时的平均 token 分布。

我们选用 Llama2-7B-Chat 作为 Safe-7B 模型,并在收集的有害问答对上对其进行微调(可对超过 95% 的恶意问题作答)得到 Unsafe-7B 模型;Llama2-13B-Chat 作为 Safe-13B 模型。恶意问题来自 AdvBench 数据集,一般问题来自开放问答数据集。此外,我们对比了模型在有无对抗提示下的行为差异。

对同一前缀q , y < ; t {q,y_{\lt;t}}q,y<;t,计算安全分布P PP与不安全分布Q QQ的 KL 散度:
D KL ( P t ∥ Q t ) = ∑ y t ∈ V P ( y t ∣ q , y < ; t ) log ⁡ P ( y t ∣ q , y < ; t ) Q ( y t ∣ q , y < ; t ) D_{\text{KL}}(P_t\parallel Q_t)=\sum_{y_t\in V}P(y_t\mid q,y_{\lt;t})\log\frac{P(y_t\mid q,y_{\lt;t})}{Q(y_t\mid q,y_{\lt;t})}DKL(PtQt)=ytVP(ytq,y<

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 15:38:36

49、智能电源箱项目技术栈解析

智能电源箱项目技术栈解析&#xff08;重点&#xff1a;线程邮箱、FrameBuffer、MQTT&#xff09; 该项目是基于Linux嵌入式系统的智能电源监控设备&#xff0c;核心实现数据采集→内部通信→本地显示→远程上报全流程&#xff0c;以下结合代码拆解核心技术模块的基础原理与项目…

作者头像 李华
网站建设 2026/4/8 21:16:47

永磁同步电机无差拍预测控制加延时补偿:探索高效电机控制之路

永磁同步电机无差拍预测控制加延时补偿在电机控制领域&#xff0c;永磁同步电机&#xff08;PMSM&#xff09;凭借其高功率密度、高效率等优点&#xff0c;广泛应用于工业、交通等众多领域。而如何实现对PMSM的精准控制&#xff0c;一直是研究的热点。今天咱们就来聊聊永磁同步…

作者头像 李华
网站建设 2026/4/10 19:17:43

七段数码管显示数字:基于STM32的硬件连接说明

从点亮一个“8”开始&#xff1a;深入理解STM32驱动七段数码管的底层逻辑 你有没有试过&#xff0c;第一次用单片机点亮一个数字时的那种兴奋&#xff1f; 不是OLED上绚丽的图形&#xff0c;也不是串口打印出的一行数据——而是当你按下复位键&#xff0c;那几个红红的“ 8 …

作者头像 李华
网站建设 2026/4/18 16:54:07

RabbitMQ HAProxy 负载均衡

文章目录 前言当Java中指定的端口号绑定的rabbitmq服务挂掉了之后&#xff0c;我们的程序是否还能够成功访问到rabbitmq服务呢什么是 HAProxy 负载均衡HAProxy 安装修改HAProxy配置文件使用HAProxy结论 前言 前面我们学习了 rabbitmq 搭建集群&#xff0c;并且为了解决集群中…

作者头像 李华
网站建设 2026/4/18 6:37:33

超详细版rs485modbus协议源代码调试技巧分享

一次讲透RS485 Modbus通信调试&#xff1a;从硬件到代码的实战排坑指南你有没有遇到过这种情况——设备接好了&#xff0c;线也拉了&#xff0c;程序跑起来了&#xff0c;但就是收不到数据&#xff1f;或者偶尔能通&#xff0c;但总在半夜莫名其妙丢帧&#xff0c;CRC校验失败像…

作者头像 李华
网站建设 2026/4/9 1:29:43

Keil编译器下载v5.06配置STM32开发环境操作指南

从零搭建STM32开发环境&#xff1a;Keil v5.06实战配置全记录 你有没有经历过这样的场景&#xff1f; 刚下载完Keil MDK&#xff0c;打开却发现找不到STM32F4的芯片型号&#xff1b;或者编译时提示“undefined symbol”&#xff0c;查了一圈才发现是启动文件没加&#xff1b;…

作者头像 李华