【港中文-岳翔宇组-arXiv25】OneThinker: 用于图像和视频的统一推理模型-深圳市維司達科技有限公司

文章：OneThinker: All-in-one Reasoning Model for Image and Video

代码：https://github.com/tulerfeng/OneThinker

单位：香港中文大学

一、问题背景：传统视觉模型的“单打独斗”困境

过去的多模态模型要么只能处理图片，要么只专攻视频，就算能兼顾少数任务，也存在两个致命问题：

任务割裂：每个任务都要单独训练模型，比如做视频问答的模型，没法直接用来做图像分割，效率极低；
知识浪费：图片理解里的空间感知、视频分析中的时间推理，这些能力本可以互通，但传统模型被限制在单一模态和任务里，没法实现跨领域迁移；
训练失衡：不同任务的“评分标准”不一样（比如答题对了给满分，定位准了给渐变分），直接一起训练会导致有的任务被忽视，模型整体性能拉胯。

二、方法创新：OneThinker的“全能修炼手册”

为了打破这些局限，香港中文大学和美团联合推出的OneThinker，靠两大核心创新实现了“一模型通吃”：

1. 超大规模统一数据集：60万样本全覆盖

构建了包含60万样本的OneThinker-600k数据集，涵盖图片+视频的10类核心任务——从看图答题、配字幕，到空间定位、视频追踪、物体分割全包含。更贴心的是，还专门给34万样本加了“思考过程”注释（比如“先找图片里的圆，再用几何定理算角度”），让模型一开始就知道“怎么想”，而不只是“怎么答”。

2. 创新训练算法：EMA-GRPO解决“偏科”问题

针对不同任务训练失衡的问题，设计了EMA-GRPO算法：

给每个任务单独定制“训练权重”，比如数学答题的“满分奖励”和定位任务的“渐变奖励”分开计算，不会互相干扰；
用动态统计的方式调整训练强度，既不会让简单任务占主导，也不会让难任务被放弃，保证模型在所有任务上均衡进步。

3. 统一任务接口：所有任务“一句话搞定”

不管是答题、追踪还是分割，都让模型用统一格式输出——先写思考过程，再给结果（比如分割任务输出坐标，答题任务输出选项），不用为不同任务设计不同接口，大大提升了实用性。

三、实验结果：31个基准测试全面领先

OneThinker在31个主流视觉基准测试中都交出了亮眼成绩，部分关键结果如下：

图片答题：MMMU基准准确率70.6%，MathVista达77.6%，超过所有开源模型；
视频答题：LongVideo-Reason基准79.2%，远超同类模型的67.2%，就算是复杂的视频数学题也领先开源模型；
定位与追踪：视频事件定位（ActivityNet）R@0.5达43.6%，物体追踪（GOT-10k）R@0.5达84.4%，稳定性拉满；
分割任务：图片分割（RefCOCO）cIoU达75.8%，视频分割（ReasonVOS）J&F达54.9%，精准度行业顶尖。

更惊喜的是，它还能“举一反三”——没专门训练过的任务（比如旋转物体检测、图像质量评估），也能靠已有知识完成，展现出超强的零样本泛化能力。

四、优势与局限：全能模型的两面性

核心优势

一站式解决方案：一个模型搞定图片+视频的10类任务，不用切换工具，落地更高效；
知识互通：图片任务学到的能力能帮视频任务提分，比如空间定位经验让视频追踪更精准；
开源开放：代码、模型、数据集全部公开，开发者可以直接复用和二次开发。

现存局限

训练成本高：需要32块H800显卡训练10天，普通团队难以复现；
视频处理效率：目前最多支持128帧视频，面对超长篇视频（比如几小时的纪录片）还需优化；
细分场景精度：在某些极端场景（比如低光照图片分割、快速移动物体追踪），比专门的单任务模型还有小幅差距。

五、一句话总结

OneThinker用统一数据集+创新训练算法，打破了图片与视频、不同任务间的壁垒，成为首个能高效处理多类视觉任务的“全能模型”，为AI视觉理解迈向通用化迈出了关键一步。

证件照快速换底！AI自动抠图工具实测好用

证件照快速换底！AI自动抠图工具实测好用随着数字身份认证和在线服务的普及，证件照已成为日常办公、考试报名、政务办理等场景中的高频需求。传统证件照拍摄受限于背景颜色（如红、蓝、白底），一旦不符合要求就需要重新…

李华

IQuest-Coder-V1 vs AlphaCode对比：复杂问题分解能力评测

IQuest-Coder-V1 vs AlphaCode对比：复杂问题分解能力评测 1. 引言 1.1 技术选型背景在当前自动编程与代码生成领域，大语言模型（LLM）正逐步从“辅助编码”向“自主问题求解”演进。尤其在竞技编程和复杂软件工程任务中&#xf…

李华

缺失数字。

缺失数字：从理论到实践的全面解析 1. 标题选项缺失数字的完全指南：从基础算法到高级应用深入理解缺失数字：算法、数学与工程实践缺失数字问题全解析：从简单查找到分布式系统优化缺失数字检测的艺术：理论、算法与实战技巧从零掌握缺失数字：数学原理、算法实现与性能…

李华

Wan2.2部署案例：教育领域动画课件制作实践分享

Wan2.2部署案例：教育领域动画课件制作实践分享 1. 背景与需求分析随着在线教育和数字化教学的快速发展，传统静态PPT课件已难以满足学生对知识可视化、动态化呈现的需求。尤其在科学、数学、历史等学科中，抽象概念的理解亟需通过动画形式进…

李华

NotaGen音乐生成模型实战｜基于大模型的符号化作曲指南

NotaGen音乐生成模型实战｜基于大模型的符号化作曲指南 1. 引言：AI作曲的新范式随着大语言模型（LLM）在序列建模能力上的持续突破，其应用已从自然语言扩展至符号化音乐生成领域。NotaGen正是这一趋势下的代表性项目—…

李华

阿里通义千问儿童版进阶教程：批量生成动物图片技巧

阿里通义千问儿童版进阶教程：批量生成动物图片技巧 1. 技术背景与应用场景随着AI图像生成技术的快速发展，基于大模型的内容创作工具正在逐步进入教育和儿童娱乐领域。阿里通义千问推出的Cute_Animal_For_Kids_Qwen_Image，是专为儿童内容设…

李华