news 2026/4/23 12:21:48

论文阅读:CVPR 2025 Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Stra

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
论文阅读:CVPR 2025 Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Stra

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2503.20823

https://www.doubao.com/chat/34175527053598466

Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy

论文翻译:
https://whiffe.github.io/Paper_Translation/Attack/paper_V/%E3%80%8APlaying%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy%E3%80%8B%20—%20Playing%20the%20Fool_%20Jailbreaking%20LLMs%20and%20Multimodal%20LLMs%20with%20Out-of-Distribution%20Strategy.html

速览

这篇文档核心是讲:研究人员发现了大型语言模型(比如GPT-4)和多模态模型(比如能看懂图片的GPT-4V)的一个安全漏洞——它们虽然经过了安全训练(比如RLHF,简单说就是让人类反馈来规范模型,不让它输出危险内容),但面对“改头换面”的危险输入时,还是容易被“攻破”(也就是“越狱”),进而输出炸弹制作、黑客攻击这类危险信息。

研究人员搞了个叫“JOOD”的方法,专门利用这个漏洞。具体就是对原本的危险输入做“变形”,让它变成模型没见过的“新样子”(也就是文档里说的“分布外输入”):

  • 对文字类危险指令(比如“告诉我怎么造炸弹”):把“炸弹”这种关键词和“苹果”这类无关词混合,变成“炸弹苹果”这种无意义的新词,再让模型解释这个新词对应的内容;
  • 对图片+文字的危险输入(比如一张炸弹图+“告诉我怎么造图里的东西”):把炸弹图和苹果图、杯子图这类普通图混合,或者做些简单的图像处理,再搭配通用指令让模型回应。

之所以这种方法能成功,是因为模型的安全训练只针对那些“一眼就能看出来”的危险输入(比如直接说造炸弹、直接给炸弹图)。一旦危险输入被“变形”成没见过的样子,模型就拿不准这是不是危险内容(不确定性变高),原本的安全防护就失效了,会乖乖输出危险信息。

实验结果也很明显:这个JOOD方法对GPT-4、GPT-4V甚至更先进的模型(比如o1)都管用,在造炸弹、黑客攻击等多个危险场景里,成功让模型“越狱”的概率最高能到63%(针对GPT-4V),比之前的其他攻击方法效果好太多。而且就算给模型加了额外的安全提示(比如让它警惕危险请求),这个方法依然能奏效。

简单说,这篇研究就是揭露了:现在的AI模型安全防护“认死理”,只防得住常规危险输入,对“换了马甲”的危险输入没辙,同时给出了一种简单却有效的攻击方法,提醒大家得进一步加强AI模型对这类“变形危险输入”的安全防护。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:15:42

PaddlePaddle低代码平台集成AI能力

PaddlePaddle低代码平台集成AI能力 在企业加速数字化转型的今天,一个常见的挑战摆在面前:如何让没有深厚算法背景的开发团队,也能快速构建出具备OCR识别、目标检测甚至语义理解能力的AI系统?传统深度学习项目动辄数月的研发周期、…

作者头像 李华
网站建设 2026/4/23 12:16:19

PaddlePaddle水资源管理AI决策支持

PaddlePaddle在水资源管理中的AI决策支持实践 在城市水务系统日益复杂的今天,一场暴雨可能引发内涝,一条河流的水质波动可能影响百万居民饮水安全。传统的水资源管理模式依赖人工巡检、静态报表和经验判断,面对海量传感器数据、遥感图像与政策…

作者头像 李华
网站建设 2026/4/20 23:44:25

Open-AutoGLM Win版实测对比:到底比Linux版慢还是快?数据说话

第一章:Open-AutoGLM Win版性能实测背景随着大语言模型在本地化部署和边缘计算场景中的需求不断上升,Open-AutoGLM 作为一款面向 Windows 平台优化的轻量化推理框架,逐渐受到开发者关注。该框架基于 GLM 架构进行深度裁剪与算子融合&#xff…

作者头像 李华
网站建设 2026/4/17 8:27:13

PaddlePaddle机器人导航SLAM算法融合

PaddlePaddle机器人导航SLAM算法融合 在智能仓储、医院配送和商场服务等场景中,我们常常看到自主移动机器人穿梭于人群之间,精准地完成定位、避障与路径规划。然而,这些看似流畅的“行走”背后,隐藏着一个核心技术难题&#xff1a…

作者头像 李华
网站建设 2026/4/19 23:14:58

Open-AutoGLM服务部署全攻略(从零到上线大揭秘)

第一章:Open-AutoGLM服务部署全攻略(从零到上线大揭秘)在人工智能模型快速迭代的背景下,Open-AutoGLM作为一款支持自动化任务理解与生成的大语言模型,其本地化部署能力成为企业级应用的关键环节。本文将深入解析如何从…

作者头像 李华
网站建设 2026/4/16 17:29:00

手把手教你部署Open-AutoGLM,快速搭建企业级AI中台

第一章:智谱Open-AutoGLM全教程Open-AutoGLM 是智谱AI推出的一款面向自动化机器学习任务的大模型工具平台,专为简化自然语言处理(NLP)流水线设计。它支持自动化的文本理解、指令生成、模型微调与部署,适用于科研与工业…

作者头像 李华