通过 1 级更新、ROSI 机制和实验结果实现的 LLM 安全放大！-深圳市維司達科技有限公司

本文提出了一种新方法–Rank-One Safety Injection (ROSI)，以提高 LLM 的安全性。

近年来，LLM 已被广泛应用，但防止生成危险内容的 "安全对齐 "已成为一项挑战。

然而，据报道，这种机制很容易被越狱攻击（越狱）攻破。

以往的研究表明，安全机制可以通过抹除一个被称为 "拒绝方向 "的一维表示空间而失效。

本研究采用了相反的思路，开发了一种轻量级、可解释的方法，通过增强 "拒绝方向 "来提高安全性。
ROSI 只需对模型的权重矩阵进行秩 1 更新，无需重新训练或大量调整。

实验证实，ROSI 提高了对有害请求的拒绝率，同时几乎不影响正常任务的性能，并表明它可以重新应用于故意去除安全性的模型。

ROSI 是一种简单的机制，它利用 LLM 内部的线性表示来提取与安全相关的方向，并将其纳入模型的权重中。

首先，对模型在响应无害指令和有害指令时的激活情况进行比较，然后根据差异得出 “安全方向向量”。
该向量被定义为无害和有害响应集群之间的中心差，代表了模型拒绝的一维特征。

根据该方向向量，秩 1 修正被添加到写入残差流的输出矩阵中。
具体来说，更新的目的是在矩阵中添加一个安全方向，使模型的输出始终向剔除方向略微倾斜。

这种更新非常轻便，即使大规模应用于所有层，也无需重新训练即可高效运行。
与传统的推理时操作（激活转向）不同，ROSI 可以进行永久性的、可解释的修改，从根本上稳定模型的行为。

作者在多个实验中测试了 ROSI 的有效性。

首先，他们将 ROSI 应用于一组安全对齐模型（如 LLaMA、Qwen、Gemma 和 Yi），并观察到对不利指令的拒绝率显著提高。
原本较弱的模型的拒绝率提高了 13 到 18 个百分点。

此外，它们还显著提高了对越狱攻击（DAN、Harmbench、WildGuardTest 等）的抵抗能力，将攻击成功率降低了一半以下。
另一方面，MMLU 和 HellaSwag 等基准得分基本保持不变，表明正常任务的实用性得以保持。

接下来，ROSI 还被应用于 “未删减模型”（Dolphin 系统），在该模型中，安全被刻意删除，而重新注入安全方向后，拒绝率提高了 30% 以上，安全恢复到了 100%。
此外，几乎没有观察到性能下降，这证明了其作为后处理 "最后一英里安全方法 "的有效性。

基于微服务架构的智能运维堡垒机系统设计与实现智能运维堡垒机系统：基于微服务架构的毕业设计资源详解引言：为什么选择智能运维堡垒机系统作为毕业设计项目？ 在当今数字化时代，服务器运维管理已成为企业IT基础设施的核心环节。随…

李华

企业级大模型AI应用市场正迎来爆发式增长，预计2024-2029年复合增长率达44%。企业竞争焦点从"模型能力"转向"落地能力"，"DataAI"双引擎成为关键。滴普科技等解决方案提供商通过端到端服务帮助企业快速实现AI落地&#xff0…

李华

CSS颜色表示法深度对比：HEX、RGB、HSL、HWB、LAB 在网页设计与前端开发中，颜色选择直接影响视觉体验与用户交互。CSS提供了多种颜色表示法，每种方法在易用性、精确性、感知统一性及适用场景上存在显著差异。本文从技术原理、使用场景、优缺点…

李华

你不是不会思考，只是没人教你“开题报告该怎么写”。你不是懒，而是被“文献综述怎么写”“研究方法怎么选”“问题怎么聚焦”这些问题困住了。更糟的是——时间不等人，导师的截止日期就在眼前。别再用熬夜和焦虑硬扛了！ 百考通…

李华

“选题方向有了，但开题报告怎么写？” “文献综述像资料堆砌，研究方法写得自己都不信……” “导师说‘问题不聚焦、逻辑混乱’，可我连第一段都改了十遍！” 别再在开题阶段就陷入焦虑和拖延！百考通全新升级…

李华

“选题方向定了，但开题报告无从下笔？” “文献看了不少，综述却像拼贴，逻辑怎么都理不顺……” “导师说‘研究问题不明确、方法不可行’，可我连技术路线图都画不出来！” 别再让开题阶段就拖垮你的毕业节奏…

李华