news 2026/5/2 7:21:26

【华东师范-林绍辉组-ICLR26】Vision-R1

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【华东师范-林绍辉组-ICLR26】Vision-R1

文章:Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

代码:暂无

单位:华东师范大学


一、问题背景:多模态推理的两大核心痛点

当前多模态大模型的推理能力提升面临着难以逾越的障碍:

  • 数据层面:现有多模态推理数据集多依赖人工标注,不仅成本高,还容易产生缺乏人类认知过程的“伪思维链”(Pseudo-CoT),缺少质疑、反思等关键认知环节,无法支撑复杂推理训练。

  • 训练层面:直接将强化学习(RL)应用于多模态大模型时,由于缺乏高质量多模态推理数据,模型难以生成复杂连贯的推理过程,甚至出现推理步骤冗长却性能下降的“过度思考”问题,导致推理能力提升受限。

与此同时,纯文本大模型DeepSeek-R1通过RL技术成功实现了推理能力的自主涌现,这启发研究者探索:能否将RL技术迁移至多模态领域,突破其推理瓶颈?

二、方法创新:三步打造强推理多模态模型

Vision-R1提出“冷启动初始化+渐进式强化学习”的创新框架,从数据构建到训练策略实现全流程优化:

  1. 模态桥接技术(Modality Bridging):无需人工标注,构建20万高质量多模态思维链数据集。先利用现有多模态大模型将图像-问题对转化为包含视觉描述和结构化推理的“伪思维链”,再通过模态桥接将视觉信息转化为文本,输入DeepSeek-R1生成具备人类认知特征的复杂思维链,最终经数据过滤形成Vision-R1-cold冷启动数据集。

  1. 渐进式思维抑制训练(PTST):针对冷启动后模型的“过度思考”问题,设计分阶段训练策略。初期限制推理长度,引导模型掌握正确推理方法;随训练推进逐步放宽长度约束,让模型自主学习复杂推理过程。

  2. 改进型强化学习框架:采用组相对策略优化(GRPO),搭配严格格式+结果双奖励函数(仅当格式合规且答案正确时给予奖励),确保模型在扩展推理复杂度的同时保持准确性。

三、实验结果:7B参数实现“以小博大”

在三大主流多模态数学推理基准测试中,Vision-R1展现出惊人性能:

  • 核心性能:7B参数的Vision-R1在MathVista基准上达到73.5%的准确率,仅比当前顶尖模型OpenAI O1低0.4%,超越众多10倍参数以上的大模型。

  • 细分任务优势:在几何推理(80.3%)、代数推理(79.0%)等细分任务上,较基础模型平均提升超10%,展现出强大的逻辑推理能力。

  • 数据集质量验证:Vision-R1-cold数据集中包含“Wait”“Hmm”等反思类词汇的频率远超现有数据集,用该数据训练的模型在通用和数学基准上均实现SOTA性能,验证了数据的高质量。

  • 消融实验证明:冷启动初始化+PTST策略的组合是性能关键,较直接RL训练(Vision-R1-Zero)平均准确率提升4.7%,有效解决了过度思考问题。

四、优势与局限

核心优势

  1. 效率领先:7B参数规模兼顾性能与部署成本,较70B+参数模型大幅降低计算开销,为实际应用提供可能。

  2. 数据高效:模态桥接技术突破人工标注瓶颈,实现高质量数据集的低成本构建,可扩展性强。

  3. 推理自然:模型生成的思维链包含质疑、反思等人类认知特征,展现出“顿悟时刻”(Aha Moment),推理过程更具可解释性。

现存局限

  1. 任务范围集中于数学推理,在常识推理、情感分析等多模态任务上的泛化能力仍需验证;

  2. 训练过程需依赖DeepSeek-R1等强推理文本模型,整体流程的独立性有待提升;

  3. 分阶段训练策略对超大规模数据集的适应性,以及更长推理序列的性能稳定性仍需优化。

五、一句话总结

Vision-R1通过模态桥接构建高质量数据集、PTST策略优化强化学习流程,首次实现了强化学习在多模态大模型推理能力提升中的有效应用,让7B参数模型具备对标70B+参数模型的推理性能,为多模态智能的实用化推进提供了全新范式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 11:53:14

CSDN算力平台+万物识别镜像=极速AI开发体验

CSDN算力平台万物识别镜像极速AI开发体验 你有没有过这样的经历:刚想在项目里加个图片识别功能,就卡在了环境配置上——CUDA版本对不上、PyTorch和torchvision版本冲突、模型权重下载失败、GPU驱动报错……折腾半天,连第一张图都没跑通。而当…

作者头像 李华
网站建设 2026/4/23 8:59:48

CosyVoice-300M vs 其他TTS模型:CPU环境下推理速度全面评测

CosyVoice-300M vs 其他TTS模型:CPU环境下推理速度全面评测 1. 为什么要在纯CPU环境里较真TTS速度? 你有没有试过在一台没有GPU的开发机、边缘设备,或者刚开的云实验环境里跑语音合成?明明只是想快速验证一段文案转语音的效果&a…

作者头像 李华
网站建设 2026/4/22 23:10:01

Qwen3-32B开源大模型:Clawdbot支持LangChain Agent框架无缝接入指南

Qwen3-32B开源大模型:Clawdbot支持LangChain Agent框架无缝接入指南 1. 为什么你需要这个接入方案 你是不是也遇到过这样的问题:手头有个性能强劲的本地大模型,比如刚发布的Qwen3-32B,想把它快速用在智能体(Agent&am…

作者头像 李华
网站建设 2026/4/29 18:20:35

快速构建原型:创业团队如何用镜像加速AI开发

快速构建原型:创业团队如何用镜像加速AI开发 在创业早期,时间就是生命线。当一个产品创意浮现时,团队最怕的不是技术难度,而是“等不起”——等模型下载、等环境配置、等显卡资源、等训练完成。很多创业团队卡在AI原型验证这一步…

作者头像 李华
网站建设 2026/4/23 10:03:59

MinerU和PaddleOCR对比:哪种方案更适合企业文档数字化?

MinerU和PaddleOCR对比:哪种方案更适合企业文档数字化? 1. 企业文档数字化的真实痛点 你有没有遇到过这些场景? 财务部门每天要处理上百份扫描版发票,手动录入数据出错率高、返工多; 法务团队审阅合同时,…

作者头像 李华