news 2026/4/25 11:00:16

小米 MiMo-V2.5-Pro 实测

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小米 MiMo-V2.5-Pro 实测

小米在MiMo-V2系列之后,推出了最新的迭代版本MiMo-V2.5-Pro。官方将其定义为"迄今最强大的模型",主打通用智能体能力、复杂软件工程以及长程任务,宣称在这些维度上已能与Claude Opus 4.6、GPT-5.4等全球顶尖Agent模型正面较量。我们对其正式版本mimo-v2.5-pro进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是,本次评测侧重中文场景下的综合能力考察,评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及新加入的coding共八个板块。而MiMo-V2.5-Pro官方主推的"单次涉及近千轮工具调用的长程任务"、复杂软件工程项目等能力,更多需要在真实Agent框架下才能充分展现。对于这部分能力,读者可结合文末的官方评测数据形成更完整的判断。

mimo-v2.5-pro版本表现:

  • 测试题数:约1.5万
  • 总分(准确率):71.4%
  • 平均耗时(每次调用):56s
  • 平均token(每次调用消耗的token):3396
  • 平均花费(每千次调用的人民币花费):64.3

1、新旧对决

对比上一代版本(MiMo-V2-Pro),MiMo-V2.5-Pro在核心能力上实现了全面升级,推理深度与响应效率同步提升,数据如下:

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位: 元/百万token

  • 整体性能显著提升:新版本准确率从65.8%提升至71.4%,提升了5.6个百分点,榜单排名从第35位跃升至第7位,一举进入头部梯队。
  • 推理维度提升幅度最大:从细分领域来看,"推理与数学计算"从71.9%提升至83.5%(+11.6%),是本次迭代中提升幅度最大的维度,反映出新版本在底层推理链路上的明显强化。
  • 法律与行政公务稳步提升:从70.7%提升至79.3%(+8.6%),该类任务对长文理解和规则推演要求较高,提升幅度也印证了模型推理能力的整体升级。
  • coding能力有所提升:从56.0%提升至62.9%(+6.9%),与官方强调的"复杂软件工程能力跃升"定位方向一致。
  • 金融与教育小幅改善:金融从80.1%提升至85.6%(+5.5%),教育从48.9%提升至53.4%(+4.5%),两项均保持稳步优化。
  • Agent与工具调用提升有限:从63.3%提升至68.1%(+4.8%)。
  • 医疗与语言维度基本持平:医疗与心理健康从80.5%微增至81.9%(+1.4%),语言与指令遵从从64.5%微增至64.9%(+0.4%),基本保持了上一代水准。
  • 响应时间大幅缩短:平均耗时从265s缩短至56s,降幅约79%。结合同期输出质量的提升,这一变化说明模型推理链路的工程优化效果明显,不再依赖冗长的推演过程去换取准确率。
  • Token消耗与成本变化:平均token消耗从2720增至3396(+24.9%),在输出单价保持21.0元/百万token不变的情况下,每千次调用花费从50.2元增至64.3元(+28.1%)。

2、横向对比

在当前主流大模型竞争格局中,mimo-v2.5-pro作为小米冲击旗舰Agent能力的新一代主力表现如何?我们从三个维度进行横向对比分析:

*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

  • 60至80元/千次区间的领先位置:在该主流中高端档位内,mimo-v2.5-pro(71.4%,64.3元)以准确率位列同档位首位。同档位的Kimi-K2.5-Thinking(70.8%,77.1元)、GLM-5.1(70.7%,73.8元)、GLM-5-Turbo(69.3%,60.8元)、GLM-5(69.0%,61.2元)分数均低于mimo-v2.5-pro,且部分模型花费还略高。
  • 向上看更高档位的参照:与成本更高的gpt-5.4-high(72.6%,122.3元)、kimi-k2.6(72.9%,100.4元)相比,mimo-v2.5-pro在准确率上存在约1至1.5个百分点的差距,但花费仅为对方的一半左右。对于预算敏感、同时追求较强Agent推理能力的场景,具备一定成本效率比优势。
  • 向下看更低档位的替代方案:对比成本更低的Doubao-Seed-2.0-pro(72.8%,22.5元)和qwen3.5-plus(73.3%,22.9元),这两款模型准确率反而更高且花费仅约22元。仅从中文综合评测的成本效率比来看,mimo-v2.5-pro在该维度上并不占优,差异化价值更多需要在官方主推的长程Agent任务中体现。

新旧模型对比

  • 代际进步幅度较大:mimo-v2.5-pro(71.4%)相比MiMo-V2-Pro(65.8%)提升5.6个百分点,排名从第35位跃升至第7位,是本次迭代中位次变化最大的模型之一。
  • 小米产品线矩阵成型:在当前榜单中,小米系模型已形成清晰的梯队分布——旗舰级的mimo-v2.5-pro(71.4%)领跑,其次是mimo-v2.5(65.8%,第34位)和上一代MiMo-V2-Pro(65.8%,第35位),MiMo-V2-Omni(66.2%,第32位)承担多模态职责,MiMo-V2-Flash-think-0204(64.5%,第41位)则主打轻量推理。产品线覆盖已较为完整。
  • 与其他厂商新一代旗舰对比:榜单前十中,qwen3.6-max-preview(75.4%)、gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、kimi-k2.6(72.9%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)占据头部。mimo-v2.5-pro(71.4%)位列第7,与前列模型的差距在1.4至4个百分点之间。

开源VS闭源对比

  • 闭源阵营中的中上游站位:mimo-v2.5-pro在闭源阵营中准确率高于gemini-3-flash-preview(71.2%)、Doubao-Seed-2.0-lite(70.5%)、claude-opus-4.6(70.0%),但与头部的qwen3.6-max-preview(75.4%)、gemini-3.1-pro-preview(75.2%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)仍有一定差距。
  • 面对开源阵营的压力:同档位内的开源模型Kimi-K2.5-Thinking(70.8%,77.1元)与GLM-5.1(70.7%,73.8元)准确率均接近mimo-v2.5-pro,而开源属性意味着它们具备本地部署和二次开发的空间,这对以闭源API形式提供服务的mimo-v2.5-pro构成了一定竞争压力。

3、官方评测

根据小米官方发布的信息,MiMo-V2.5-Pro的核心定位是一款面向通用智能体、复杂软件工程以及长程任务的旗舰模型,官方将其对标Claude Opus 4.6和GPT-5.4。以下是官方披露的几组关键评测和任务表现:

Agent与编程基准测试

官方在多项主流Agent与Coding基准上提供了与MiMo-V2.5、MiMo-V2-Pro、Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4的对比。在Coding Agent维度:SWE-bench Pro得分57.2,与Claude Opus 4.6(57.3)和GPT-5.4(57.7)基本持平;MiMo Coding Bench(内部)得分73.7,优于Claude Opus 4.6(71.5),略低于Gemini 3.1 Pro(77.1);Terminal-Bench 2.0得分68.4,优于Claude Opus 4.6(65.4)和Gemini 3.1 Pro(68.5),略低于GPT-5.4(75.1)。

在General Agent维度:GDPVal-AA得分1581;τ3-bench得分72.9,与GPT-5.4(72.9)持平;ClawEval(pass^3)得分63.8,略高于多数对手但低于Claude Opus 4.6(70.4)。在Reasoning维度:Humanity's Last Exam得分48.0(使用工具时),低于GPT-5.4(58.7)和Gemini 3.1 Pro(51.4)。

长程任务案例一:Rust实现完整SysY编译器

官方展示了一项源自北京大学《编译原理》课程项目的任务:要求模型用Rust从零实现一个完整的SysY编译器,包括词法分析器、语法分析器、AST、Koopa IR代码生成、RISC-V汇编后端以及性能优化。作为参考,北大本科生完成该项目通常需要数周时间。官方数据显示,MiMo-V2.5-Pro仅用时4.3小时,经过672次工具调用完成全部工作,在隐藏测试集上取得233/233的满分。过程数据显示:首次编译即通过137/233(59%冷启动通过率),Koopa IR拿下满分110/110,RISC-V后端满分103/103,性能优化满分20/20。在第512轮一次重构导致lv9/riscv回退两个测试点时,模型能够自行诊断、恢复并继续推进。

长程任务案例二:Web视频编辑器开发

官方披露的另一项长程任务是:仅凭"构建一个视频编辑器Web应用"这样的简单指令,MiMo-V2.5-Pro便交付了一款可运行的Web应用,具备多轨道时间线、片段裁剪、交叉淡化、音频混合以及导出流程等功能。最终构建的代码量达8,192行,历经1,868次工具调用,在11.5小时的自主工作中完成。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 10:59:06

Qwerty Learner词典导入终极指南:打造你的专属打字训练营

Qwerty Learner词典导入终极指南:打造你的专属打字训练营 【免费下载链接】qwerty-learner 为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件 / Words learning and English muscle memory training software designed for keyboard workers 项目地址: https://…

作者头像 李华
网站建设 2026/4/25 10:56:12

如何在GTA V中安全使用开源游戏增强框架:YimMenu完整指南

如何在GTA V中安全使用开源游戏增强框架:YimMenu完整指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/Y…

作者头像 李华
网站建设 2026/4/25 10:55:52

Hi3536双网口调试实录:手把手教你用STMMAC通用驱动点亮YT8511千兆PHY

Hi3536双网口实战:通用STMMAC驱动调通YT8511千兆PHY全流程解析 当国产PHY芯片遇上嵌入式Linux通用驱动框架,如何快速实现双千兆网口的稳定通信?本文将带你深入Hi3536平台与YT8511 PHY的硬件协同设计细节,通过STMMAC通用驱动完成从…

作者头像 李华
网站建设 2026/4/25 10:55:21

艾尔登法环存档迁移终极指南:3分钟安全转移游戏角色

艾尔登法环存档迁移终极指南:3分钟安全转移游戏角色 【免费下载链接】EldenRingSaveCopier 项目地址: https://gitcode.com/gh_mirrors/el/EldenRingSaveCopier 还在为更换电脑或重装系统后丢失艾尔登法环游戏进度而烦恼吗?EldenRingSaveCopier是…

作者头像 李华
网站建设 2026/4/25 10:53:43

LLM-Paper-Daily:社区驱动的AI论文日报,高效追踪大模型前沿研究

1. 项目概述与核心价值 如果你和我一样,每天打开arXiv、Twitter或者各种学术推送,面对海量涌现的LLM论文感到既兴奋又焦虑,那么这个项目可能就是你的“信息焦虑”解药。 llm-paper-daily 不是一个简单的论文列表,它是一个由社区…

作者头像 李华