news 2026/4/23 16:05:07

【港中文-岳翔宇组-arXiv25】OneThinker: 用于图像和视频的统一推理模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【港中文-岳翔宇组-arXiv25】OneThinker: 用于图像和视频的统一推理模型

文章:OneThinker: All-in-one Reasoning Model for Image and Video

代码:https://github.com/tulerfeng/OneThinker

单位:香港中文大学


一、问题背景:传统视觉模型的“单打独斗”困境

过去的多模态模型要么只能处理图片,要么只专攻视频,就算能兼顾少数任务,也存在两个致命问题:

  1. 任务割裂:每个任务都要单独训练模型,比如做视频问答的模型,没法直接用来做图像分割,效率极低;

  2. 知识浪费:图片理解里的空间感知、视频分析中的时间推理,这些能力本可以互通,但传统模型被限制在单一模态和任务里,没法实现跨领域迁移;

  3. 训练失衡:不同任务的“评分标准”不一样(比如答题对了给满分,定位准了给渐变分),直接一起训练会导致有的任务被忽视,模型整体性能拉胯。

二、方法创新:OneThinker的“全能修炼手册”

为了打破这些局限,香港中文大学和美团联合推出的OneThinker,靠两大核心创新实现了“一模型通吃”:

1. 超大规模统一数据集:60万样本全覆盖

构建了包含60万样本的OneThinker-600k数据集,涵盖图片+视频的10类核心任务——从看图答题、配字幕,到空间定位、视频追踪、物体分割全包含。更贴心的是,还专门给34万样本加了“思考过程”注释(比如“先找图片里的圆,再用几何定理算角度”),让模型一开始就知道“怎么想”,而不只是“怎么答”。

2. 创新训练算法:EMA-GRPO解决“偏科”问题

针对不同任务训练失衡的问题,设计了EMA-GRPO算法:

  • 给每个任务单独定制“训练权重”,比如数学答题的“满分奖励”和定位任务的“渐变奖励”分开计算,不会互相干扰;

  • 用动态统计的方式调整训练强度,既不会让简单任务占主导,也不会让难任务被放弃,保证模型在所有任务上均衡进步。

3. 统一任务接口:所有任务“一句话搞定”

不管是答题、追踪还是分割,都让模型用统一格式输出——先写思考过程,再给结果(比如分割任务输出坐标,答题任务输出选项),不用为不同任务设计不同接口,大大提升了实用性。

三、实验结果:31个基准测试全面领先

OneThinker在31个主流视觉基准测试中都交出了亮眼成绩,部分关键结果如下:

  • 图片答题:MMMU基准准确率70.6%,MathVista达77.6%,超过所有开源模型;

  • 视频答题:LongVideo-Reason基准79.2%,远超同类模型的67.2%,就算是复杂的视频数学题也领先开源模型;

  • 定位与追踪:视频事件定位(ActivityNet)R@0.5达43.6%,物体追踪(GOT-10k)R@0.5达84.4%,稳定性拉满;

  • 分割任务:图片分割(RefCOCO)cIoU达75.8%,视频分割(ReasonVOS)J&F达54.9%,精准度行业顶尖。

更惊喜的是,它还能“举一反三”——没专门训练过的任务(比如旋转物体检测、图像质量评估),也能靠已有知识完成,展现出超强的零样本泛化能力。

四、优势与局限:全能模型的两面性

核心优势

  1. 一站式解决方案:一个模型搞定图片+视频的10类任务,不用切换工具,落地更高效;

  2. 知识互通:图片任务学到的能力能帮视频任务提分,比如空间定位经验让视频追踪更精准;

  3. 开源开放:代码、模型、数据集全部公开,开发者可以直接复用和二次开发。

现存局限

  1. 训练成本高:需要32块H800显卡训练10天,普通团队难以复现;

  2. 视频处理效率:目前最多支持128帧视频,面对超长篇视频(比如几小时的纪录片)还需优化;

  3. 细分场景精度:在某些极端场景(比如低光照图片分割、快速移动物体追踪),比专门的单任务模型还有小幅差距。

五、一句话总结

OneThinker用统一数据集+创新训练算法,打破了图片与视频、不同任务间的壁垒,成为首个能高效处理多类视觉任务的“全能模型”,为AI视觉理解迈向通用化迈出了关键一步。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:25:39

证件照快速换底!AI自动抠图工具实测好用

证件照快速换底!AI自动抠图工具实测好用 随着数字身份认证和在线服务的普及,证件照已成为日常办公、考试报名、政务办理等场景中的高频需求。传统证件照拍摄受限于背景颜色(如红、蓝、白底),一旦不符合要求就需要重新…

作者头像 李华
网站建设 2026/4/23 11:25:21

IQuest-Coder-V1 vs AlphaCode对比:复杂问题分解能力评测

IQuest-Coder-V1 vs AlphaCode对比:复杂问题分解能力评测 1. 引言 1.1 技术选型背景 在当前自动编程与代码生成领域,大语言模型(LLM)正逐步从“辅助编码”向“自主问题求解”演进。尤其在竞技编程和复杂软件工程任务中&#xf…

作者头像 李华
网站建设 2026/4/23 12:12:40

缺失数字。

缺失数字:从理论到实践的全面解析 1. 标题选项 缺失数字的完全指南:从基础算法到高级应用 深入理解缺失数字:算法、数学与工程实践 缺失数字问题全解析:从简单查找到分布式系统优化 缺失数字检测的艺术:理论、算法与实战技巧 从零掌握缺失数字:数学原理、算法实现与性能…

作者头像 李华
网站建设 2026/4/23 12:21:48

Wan2.2部署案例:教育领域动画课件制作实践分享

Wan2.2部署案例:教育领域动画课件制作实践分享 1. 背景与需求分析 随着在线教育和数字化教学的快速发展,传统静态PPT课件已难以满足学生对知识可视化、动态化呈现的需求。尤其在科学、数学、历史等学科中,抽象概念的理解亟需通过动画形式进…

作者头像 李华
网站建设 2026/4/23 14:59:58

NotaGen音乐生成模型实战|基于大模型的符号化作曲指南

NotaGen音乐生成模型实战|基于大模型的符号化作曲指南 1. 引言:AI作曲的新范式 随着大语言模型(LLM)在序列建模能力上的持续突破,其应用已从自然语言扩展至符号化音乐生成领域。NotaGen正是这一趋势下的代表性项目—…

作者头像 李华
网站建设 2026/4/23 13:37:16

阿里通义千问儿童版进阶教程:批量生成动物图片技巧

阿里通义千问儿童版进阶教程:批量生成动物图片技巧 1. 技术背景与应用场景 随着AI图像生成技术的快速发展,基于大模型的内容创作工具正在逐步进入教育和儿童娱乐领域。阿里通义千问推出的Cute_Animal_For_Kids_Qwen_Image,是专为儿童内容设…

作者头像 李华