小米在MiMo-V2系列之后,推出了最新的迭代版本MiMo-V2.5-Pro。官方将其定义为"迄今最强大的模型",主打通用智能体能力、复杂软件工程以及长程任务,宣称在这些维度上已能与Claude Opus 4.6、GPT-5.4等全球顶尖Agent模型正面较量。我们对其正式版本mimo-v2.5-pro进行了全面评测,测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。
需要说明的是,本次评测侧重中文场景下的综合能力考察,评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及新加入的coding共八个板块。而MiMo-V2.5-Pro官方主推的"单次涉及近千轮工具调用的长程任务"、复杂软件工程项目等能力,更多需要在真实Agent框架下才能充分展现。对于这部分能力,读者可结合文末的官方评测数据形成更完整的判断。
mimo-v2.5-pro版本表现:
- 测试题数:约1.5万
- 总分(准确率):71.4%
- 平均耗时(每次调用):56s
- 平均token(每次调用消耗的token):3396
- 平均花费(每千次调用的人民币花费):64.3
1、新旧对决
对比上一代版本(MiMo-V2-Pro),MiMo-V2.5-Pro在核心能力上实现了全面升级,推理深度与响应效率同步提升,数据如下:
*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
*输出价格单位: 元/百万token
- 整体性能显著提升:新版本准确率从65.8%提升至71.4%,提升了5.6个百分点,榜单排名从第35位跃升至第7位,一举进入头部梯队。
- 推理维度提升幅度最大:从细分领域来看,"推理与数学计算"从71.9%提升至83.5%(+11.6%),是本次迭代中提升幅度最大的维度,反映出新版本在底层推理链路上的明显强化。
- 法律与行政公务稳步提升:从70.7%提升至79.3%(+8.6%),该类任务对长文理解和规则推演要求较高,提升幅度也印证了模型推理能力的整体升级。
- coding能力有所提升:从56.0%提升至62.9%(+6.9%),与官方强调的"复杂软件工程能力跃升"定位方向一致。
- 金融与教育小幅改善:金融从80.1%提升至85.6%(+5.5%),教育从48.9%提升至53.4%(+4.5%),两项均保持稳步优化。
- Agent与工具调用提升有限:从63.3%提升至68.1%(+4.8%)。
- 医疗与语言维度基本持平:医疗与心理健康从80.5%微增至81.9%(+1.4%),语言与指令遵从从64.5%微增至64.9%(+0.4%),基本保持了上一代水准。
- 响应时间大幅缩短:平均耗时从265s缩短至56s,降幅约79%。结合同期输出质量的提升,这一变化说明模型推理链路的工程优化效果明显,不再依赖冗长的推演过程去换取准确率。
- Token消耗与成本变化:平均token消耗从2720增至3396(+24.9%),在输出单价保持21.0元/百万token不变的情况下,每千次调用花费从50.2元增至64.3元(+28.1%)。
2、横向对比
在当前主流大模型竞争格局中,mimo-v2.5-pro作为小米冲击旗舰Agent能力的新一代主力表现如何?我们从三个维度进行横向对比分析:
*数据来源:非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark
同成本档位对比
- 60至80元/千次区间的领先位置:在该主流中高端档位内,mimo-v2.5-pro(71.4%,64.3元)以准确率位列同档位首位。同档位的Kimi-K2.5-Thinking(70.8%,77.1元)、GLM-5.1(70.7%,73.8元)、GLM-5-Turbo(69.3%,60.8元)、GLM-5(69.0%,61.2元)分数均低于mimo-v2.5-pro,且部分模型花费还略高。
- 向上看更高档位的参照:与成本更高的gpt-5.4-high(72.6%,122.3元)、kimi-k2.6(72.9%,100.4元)相比,mimo-v2.5-pro在准确率上存在约1至1.5个百分点的差距,但花费仅为对方的一半左右。对于预算敏感、同时追求较强Agent推理能力的场景,具备一定成本效率比优势。
- 向下看更低档位的替代方案:对比成本更低的Doubao-Seed-2.0-pro(72.8%,22.5元)和qwen3.5-plus(73.3%,22.9元),这两款模型准确率反而更高且花费仅约22元。仅从中文综合评测的成本效率比来看,mimo-v2.5-pro在该维度上并不占优,差异化价值更多需要在官方主推的长程Agent任务中体现。
新旧模型对比
- 代际进步幅度较大:mimo-v2.5-pro(71.4%)相比MiMo-V2-Pro(65.8%)提升5.6个百分点,排名从第35位跃升至第7位,是本次迭代中位次变化最大的模型之一。
- 小米产品线矩阵成型:在当前榜单中,小米系模型已形成清晰的梯队分布——旗舰级的mimo-v2.5-pro(71.4%)领跑,其次是mimo-v2.5(65.8%,第34位)和上一代MiMo-V2-Pro(65.8%,第35位),MiMo-V2-Omni(66.2%,第32位)承担多模态职责,MiMo-V2-Flash-think-0204(64.5%,第41位)则主打轻量推理。产品线覆盖已较为完整。
- 与其他厂商新一代旗舰对比:榜单前十中,qwen3.6-max-preview(75.4%)、gemini-3.1-pro-preview(75.2%)、qwen3.5-plus(73.3%)、kimi-k2.6(72.9%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)占据头部。mimo-v2.5-pro(71.4%)位列第7,与前列模型的差距在1.4至4个百分点之间。
开源VS闭源对比
- 闭源阵营中的中上游站位:mimo-v2.5-pro在闭源阵营中准确率高于gemini-3-flash-preview(71.2%)、Doubao-Seed-2.0-lite(70.5%)、claude-opus-4.6(70.0%),但与头部的qwen3.6-max-preview(75.4%)、gemini-3.1-pro-preview(75.2%)、Doubao-Seed-2.0-pro(72.8%)、gpt-5.4-high(72.6%)仍有一定差距。
- 面对开源阵营的压力:同档位内的开源模型Kimi-K2.5-Thinking(70.8%,77.1元)与GLM-5.1(70.7%,73.8元)准确率均接近mimo-v2.5-pro,而开源属性意味着它们具备本地部署和二次开发的空间,这对以闭源API形式提供服务的mimo-v2.5-pro构成了一定竞争压力。
3、官方评测
根据小米官方发布的信息,MiMo-V2.5-Pro的核心定位是一款面向通用智能体、复杂软件工程以及长程任务的旗舰模型,官方将其对标Claude Opus 4.6和GPT-5.4。以下是官方披露的几组关键评测和任务表现:
Agent与编程基准测试
官方在多项主流Agent与Coding基准上提供了与MiMo-V2.5、MiMo-V2-Pro、Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4的对比。在Coding Agent维度:SWE-bench Pro得分57.2,与Claude Opus 4.6(57.3)和GPT-5.4(57.7)基本持平;MiMo Coding Bench(内部)得分73.7,优于Claude Opus 4.6(71.5),略低于Gemini 3.1 Pro(77.1);Terminal-Bench 2.0得分68.4,优于Claude Opus 4.6(65.4)和Gemini 3.1 Pro(68.5),略低于GPT-5.4(75.1)。
在General Agent维度:GDPVal-AA得分1581;τ3-bench得分72.9,与GPT-5.4(72.9)持平;ClawEval(pass^3)得分63.8,略高于多数对手但低于Claude Opus 4.6(70.4)。在Reasoning维度:Humanity's Last Exam得分48.0(使用工具时),低于GPT-5.4(58.7)和Gemini 3.1 Pro(51.4)。
长程任务案例一:Rust实现完整SysY编译器
官方展示了一项源自北京大学《编译原理》课程项目的任务:要求模型用Rust从零实现一个完整的SysY编译器,包括词法分析器、语法分析器、AST、Koopa IR代码生成、RISC-V汇编后端以及性能优化。作为参考,北大本科生完成该项目通常需要数周时间。官方数据显示,MiMo-V2.5-Pro仅用时4.3小时,经过672次工具调用完成全部工作,在隐藏测试集上取得233/233的满分。过程数据显示:首次编译即通过137/233(59%冷启动通过率),Koopa IR拿下满分110/110,RISC-V后端满分103/103,性能优化满分20/20。在第512轮一次重构导致lv9/riscv回退两个测试点时,模型能够自行诊断、恢复并继续推进。
长程任务案例二:Web视频编辑器开发
官方披露的另一项长程任务是:仅凭"构建一个视频编辑器Web应用"这样的简单指令,MiMo-V2.5-Pro便交付了一款可运行的Web应用,具备多轨道时间线、片段裁剪、交叉淡化、音频混合以及导出流程等功能。最终构建的代码量达8,192行,历经1,868次工具调用,在11.5小时的自主工作中完成。