news 2026/4/23 6:12:48

【澳门大学-郑哲东-ICLR26】SketchThinker-R1:迈向大型多模态模型中的高效草图式推理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【澳门大学-郑哲东-ICLR26】SketchThinker-R1:迈向大型多模态模型中的高效草图式推理

文章:SKETCHTHINKER-R1: TOWARDS EFFICIENT SKETCH STYLE REASONING IN LARGE MULTIMODAL MODELS

代码:https://github.com/Ruiyang-061X/SketchThinker-R1

单位:澳门大学科技学院与智能计算与交互研究所、上海人工智能实验室


一、问题背景

当前大型多模态模型(LMMs)在视觉识别、逻辑推理等任务中,通过冗长的逐步推理(如链思推理CoT)实现了性能提升,但随之而来的是两大核心痛点:一是推理效率低下,冗长的推理过程导致token消耗剧增、响应时间延长,难以适配实时交互场景;二是推理有效性受损,过度思考可能引入冗余信息或累积微小错误,最终影响答案准确性,同时复杂的推理轨迹也不利于人类理解核心逻辑。

反观人类解决问题的思维模式,往往会采用“草图式推理”——聚焦关键信息、精简逻辑步骤,在保证正确性的前提下实现高效决策。受此启发,如何让多模态模型具备类似的简洁推理能力,在不牺牲答案准确性的前提下降低推理成本,成为当前领域亟待解决的问题。

二、方法创新

SketchThinker-R1提出了一套三阶段强化学习框架,核心是为模型注入“草图式推理”能力,让推理过程既精简又精准:

1. 草图模式冷启动(Sketch-Mode Cold Start)

基于现有多模态推理数据集(如LLaVA-CoT-100K、Vision-R1-cold),利用强大的LLM(如GPT-5)将冗长的推理过程(T_Long)转化为草图式推理(T_Sketch)。转化过程严格遵循“保留核心逻辑、去除冗余细节、结构化呈现”三大原则,最终构建含20K样本的SketchColdStart-20K数据集。通过在该数据集上微调基础多模态模型,为后续强化学习奠定初始的草图推理能力。

2. 草图评估奖励模型(SketchJudge Reward Model)

为了精准引导模型的推理风格,专门训练了一个奖励模型:利用冷启动阶段的“长推理”和“草图推理”双模式数据,将长推理标注为0分、草图推理标注为1分,微调开源LLM使其具备区分推理风格的能力。该模型能为推理过程打分,对简洁聚焦的草图式推理给予高奖励,对冗长冗余的推理予以惩罚,为后续强化学习提供可靠的监督信号。

3. 草图推理强化学习(Sketch-Thinking Reinforcement Learning)

基于冷启动后的模型,采用GRPO(Group Reward Proximal Optimization)算法进行强化学习。奖励设计融合了三部分:答案准确性(权重0.5)、响应格式规范性(权重0.4)、草图推理风格得分(权重0.1),通过多领域数据集(MMStar、MathVista等)训练,让模型在保持准确性的同时,进一步泛化草图式推理能力。

三、实验结果

研究团队在4个跨领域基准数据集(MMMU、MathVision、VisuLogic、PhyX)上进行了全面评估,结果表现亮眼:

1. 核心性能指标

  • 推理成本大幅降低:相比传统R1风格训练的Vanilla-R1模型,SketchThinker-R1的推理token消耗减少超过64%,部分场景(如VisuLogic)甚至减少76.5%;

  • 准确性保持或提升:在所有基准测试中,SketchThinker-R1的答案准确率均不低于基线模型,部分数据集(如MMMU)准确率提升1.8-2.8个百分点;

  • 推理效率碾压基线:提出的“思维效率(EoT)”指标(准确率/推理token数)显示,SketchThinker-R1的EoT值是Vanilla-R1的2-3倍,远超Prompt-based、SFT-based等其他高效推理方法。

2. 模型泛化性验证

  • 无论是7B还是3B规模的模型,SketchThinker-R1均能稳定实现“降本增效”,3B模型的推理token消耗减少超50%,验证了框架在不同模型尺度下的鲁棒性;

  • 消融实验表明:冷启动阶段与强化学习的结合是关键,仅靠冷启动泛化能力有限,仅靠强化学习则探索效率低下;而GPT-5生成的冷启动数据、多源数据融合能进一步提升模型性能。

四、优势与局限

优势

  1. 效率与准确性兼得:突破“长推理=高性能”的固有认知,通过草图式推理实现“少token+高准确率”,响应时间缩短约20%,训练成本降低19%;

  2. 可解释性更强:草图式推理聚焦关键逻辑步骤,以结构化列表呈现,无论是人类评估还是LVLM自动评估,其推理轨迹的可解释性均优于传统冗长推理;

  3. 通用性广:适用于数学计算、物理推理、视觉逻辑等多个领域,且能适配不同规模的多模态模型,落地场景灵活。

局限

  1. 草图式推理的质量高度依赖初始转化工具(如GPT-5)的能力,开源LLM生成的转化数据可能导致准确性损失;

  2. 对于极复杂的推理任务,模型仍可能需要一定长度的推理链,过度追求简洁可能影响复杂场景的性能;

  3. 目前的奖励机制中,准确性与草图风格的权重平衡依赖人工调参,尚未实现动态自适应调整。

五、一句话总结

SketchThinker-R1通过“冷启动注入初始能力+奖励模型引导风格+强化学习泛化”的三阶段框架,让大型多模态模型具备人类式的草图推理能力,在降低64%以上推理成本的同时保持甚至提升答案准确性,为高效多模态推理提供了全新解决方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 10:11:28

NGUI裁剪Shader的底层逻辑与性能优化

先来个很真实的场景: 你接手一个 NGUI 老项目,打开某个滚动列表(ScrollView),发现两件事: 列表能裁剪,超出区域的 item 不显示——看起来很正常。 但一到低端机就掉帧,Profiler 里 UI 渲染时间飙升,GPU 像在哭。 你问:“不就是裁剪一下吗?不让超出区域的像素画出来,…

作者头像 李华
网站建设 2026/4/1 9:31:21

如何在vue3+ts项目中实现zebra扫描枪扫码效果

1实现一个hooks import { onMounted, onUnmounted, ref } from vueinterface ScanOptions {threshold?: numberminLength?: numberonScanProgress?: (buffer: string) > voidonScanSuccess: (code: string) > void }export function useScanGun(options: ScanOptions…

作者头像 李华
网站建设 2026/4/17 19:39:54

Java套接字编程:深入解析多线程回显服务器的实现

文章目录Java套接字编程:深入解析多线程回显服务器的实现什么是回显服务器?Java套接字编程的基本概念实现一个单线程回显服务器服务端代码实现客户端代码实现运行效果为什么需要多线程?实现一个多线程回显服务器改进后的服务端代码客户端代码…

作者头像 李华
网站建设 2026/4/22 18:46:25

现代数据架构的AI驱动转型:AI应用架构师的角色与挑战

现代数据架构的AI驱动转型:AI应用架构师的角色与挑战 一、引言:为什么AI驱动的数据架构转型是必然? 1.1 传统数据架构的“失效”困境 在数字化浪潮下,企业的数据环境正在发生根本性变化: 数据量爆炸:IDC预测…

作者头像 李华
网站建设 2026/4/23 8:42:53

使用GD32F103C8T6开发板的标准库实现硬件I2C协议通信(附源码下载地址)

代码说明: 该I2C驱动实现了完整的硬件I2C配置,包括GPIO引脚设置、时钟配置和模式配置包含全面的异常处理机制,能够检测和处理超时、NACK、总线忙、仲裁丢失等异常情况提供了多种I2C操作函数,包括单字节读写和多字节读写操作实现了…

作者头像 李华
网站建设 2026/4/23 8:41:00

短剧收稿编辑的福音:2026年AI 评剧本让优质剧本脱颖而出

做短剧剧本收稿编辑五年,我见证了短剧行业从野蛮生长到规范化发展的全过程。但随之而来的,是越来越繁重的审稿压力 ——短剧投稿量翻倍增长,优质剧本却依旧稀缺,每天在海量同质化剧本中 “大海捞针”,还要和编剧反复沟…

作者头像 李华