小米 MiMo-V2.5-Pro 实测-深圳市維司達科技有限公司

小米在MiMo-V2系列之后，推出了最新的迭代版本MiMo-V2.5-Pro。官方将其定义为"迄今最强大的模型"，主打通用智能体能力、复杂软件工程以及长程任务，宣称在这些维度上已能与Claude Opus 4.6、GPT-5.4等全球顶尖Agent模型正面较量。我们对其正式版本mimo-v2.5-pro进行了全面评测，测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。

需要说明的是，本次评测侧重中文场景下的综合能力考察，评测维度覆盖教育、医疗、金融、法律、推理数学、语言指令、Agent工具调用以及新加入的coding共八个板块。而MiMo-V2.5-Pro官方主推的"单次涉及近千轮工具调用的长程任务"、复杂软件工程项目等能力，更多需要在真实Agent框架下才能充分展现。对于这部分能力，读者可结合文末的官方评测数据形成更完整的判断。

mimo-v2.5-pro版本表现：

测试题数：约1.5万
总分（准确率）：71.4%
平均耗时（每次调用）：56s
平均token（每次调用消耗的token）：3396
平均花费（每千次调用的人民币花费）：64.3

1、新旧对决

对比上一代版本（MiMo-V2-Pro），MiMo-V2.5-Pro在核心能力上实现了全面升级，推理深度与响应效率同步提升，数据如下：

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位：元/百万token

整体性能显著提升：新版本准确率从65.8%提升至71.4%，提升了5.6个百分点，榜单排名从第35位跃升至第7位，一举进入头部梯队。
推理维度提升幅度最大：从细分领域来看，"推理与数学计算"从71.9%提升至83.5%（+11.6%），是本次迭代中提升幅度最大的维度，反映出新版本在底层推理链路上的明显强化。
法律与行政公务稳步提升：从70.7%提升至79.3%（+8.6%），该类任务对长文理解和规则推演要求较高，提升幅度也印证了模型推理能力的整体升级。
coding能力有所提升：从56.0%提升至62.9%（+6.9%），与官方强调的"复杂软件工程能力跃升"定位方向一致。
金融与教育小幅改善：金融从80.1%提升至85.6%（+5.5%），教育从48.9%提升至53.4%（+4.5%），两项均保持稳步优化。
Agent与工具调用提升有限：从63.3%提升至68.1%（+4.8%）。
医疗与语言维度基本持平：医疗与心理健康从80.5%微增至81.9%（+1.4%），语言与指令遵从从64.5%微增至64.9%（+0.4%），基本保持了上一代水准。
响应时间大幅缩短：平均耗时从265s缩短至56s，降幅约79%。结合同期输出质量的提升，这一变化说明模型推理链路的工程优化效果明显，不再依赖冗长的推演过程去换取准确率。
Token消耗与成本变化：平均token消耗从2720增至3396（+24.9%），在输出单价保持21.0元/百万token不变的情况下，每千次调用花费从50.2元增至64.3元（+28.1%）。

2、横向对比

在当前主流大模型竞争格局中，mimo-v2.5-pro作为小米冲击旗舰Agent能力的新一代主力表现如何？我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

60至80元/千次区间的领先位置：在该主流中高端档位内，mimo-v2.5-pro（71.4%，64.3元）以准确率位列同档位首位。同档位的Kimi-K2.5-Thinking（70.8%，77.1元）、GLM-5.1（70.7%，73.8元）、GLM-5-Turbo（69.3%，60.8元）、GLM-5（69.0%，61.2元）分数均低于mimo-v2.5-pro，且部分模型花费还略高。
向上看更高档位的参照：与成本更高的gpt-5.4-high（72.6%，122.3元）、kimi-k2.6（72.9%，100.4元）相比，mimo-v2.5-pro在准确率上存在约1至1.5个百分点的差距，但花费仅为对方的一半左右。对于预算敏感、同时追求较强Agent推理能力的场景，具备一定成本效率比优势。
向下看更低档位的替代方案：对比成本更低的Doubao-Seed-2.0-pro（72.8%，22.5元）和qwen3.5-plus（73.3%，22.9元），这两款模型准确率反而更高且花费仅约22元。仅从中文综合评测的成本效率比来看，mimo-v2.5-pro在该维度上并不占优，差异化价值更多需要在官方主推的长程Agent任务中体现。

新旧模型对比

代际进步幅度较大：mimo-v2.5-pro（71.4%）相比MiMo-V2-Pro（65.8%）提升5.6个百分点，排名从第35位跃升至第7位，是本次迭代中位次变化最大的模型之一。
小米产品线矩阵成型：在当前榜单中，小米系模型已形成清晰的梯队分布——旗舰级的mimo-v2.5-pro（71.4%）领跑，其次是mimo-v2.5（65.8%，第34位）和上一代MiMo-V2-Pro（65.8%，第35位），MiMo-V2-Omni（66.2%，第32位）承担多模态职责，MiMo-V2-Flash-think-0204（64.5%，第41位）则主打轻量推理。产品线覆盖已较为完整。
与其他厂商新一代旗舰对比：榜单前十中，qwen3.6-max-preview（75.4%）、gemini-3.1-pro-preview（75.2%）、qwen3.5-plus（73.3%）、kimi-k2.6（72.9%）、Doubao-Seed-2.0-pro（72.8%）、gpt-5.4-high（72.6%）占据头部。mimo-v2.5-pro（71.4%）位列第7，与前列模型的差距在1.4至4个百分点之间。

开源VS闭源对比

闭源阵营中的中上游站位：mimo-v2.5-pro在闭源阵营中准确率高于gemini-3-flash-preview（71.2%）、Doubao-Seed-2.0-lite（70.5%）、claude-opus-4.6（70.0%），但与头部的qwen3.6-max-preview（75.4%）、gemini-3.1-pro-preview（75.2%）、Doubao-Seed-2.0-pro（72.8%）、gpt-5.4-high（72.6%）仍有一定差距。
面对开源阵营的压力：同档位内的开源模型Kimi-K2.5-Thinking（70.8%，77.1元）与GLM-5.1（70.7%，73.8元）准确率均接近mimo-v2.5-pro，而开源属性意味着它们具备本地部署和二次开发的空间，这对以闭源API形式提供服务的mimo-v2.5-pro构成了一定竞争压力。

3、官方评测

根据小米官方发布的信息，MiMo-V2.5-Pro的核心定位是一款面向通用智能体、复杂软件工程以及长程任务的旗舰模型，官方将其对标Claude Opus 4.6和GPT-5.4。以下是官方披露的几组关键评测和任务表现：

Agent与编程基准测试

官方在多项主流Agent与Coding基准上提供了与MiMo-V2.5、MiMo-V2-Pro、Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4的对比。在Coding Agent维度：SWE-bench Pro得分57.2，与Claude Opus 4.6（57.3）和GPT-5.4（57.7）基本持平；MiMo Coding Bench（内部）得分73.7，优于Claude Opus 4.6（71.5），略低于Gemini 3.1 Pro（77.1）；Terminal-Bench 2.0得分68.4，优于Claude Opus 4.6（65.4）和Gemini 3.1 Pro（68.5），略低于GPT-5.4（75.1）。

在General Agent维度：GDPVal-AA得分1581；τ3-bench得分72.9，与GPT-5.4（72.9）持平；ClawEval（pass^3）得分63.8，略高于多数对手但低于Claude Opus 4.6（70.4）。在Reasoning维度：Humanity's Last Exam得分48.0（使用工具时），低于GPT-5.4（58.7）和Gemini 3.1 Pro（51.4）。

长程任务案例一：Rust实现完整SysY编译器

官方展示了一项源自北京大学《编译原理》课程项目的任务：要求模型用Rust从零实现一个完整的SysY编译器，包括词法分析器、语法分析器、AST、Koopa IR代码生成、RISC-V汇编后端以及性能优化。作为参考，北大本科生完成该项目通常需要数周时间。官方数据显示，MiMo-V2.5-Pro仅用时4.3小时，经过672次工具调用完成全部工作，在隐藏测试集上取得233/233的满分。过程数据显示：首次编译即通过137/233（59%冷启动通过率），Koopa IR拿下满分110/110，RISC-V后端满分103/103，性能优化满分20/20。在第512轮一次重构导致lv9/riscv回退两个测试点时，模型能够自行诊断、恢复并继续推进。

长程任务案例二：Web视频编辑器开发

官方披露的另一项长程任务是：仅凭"构建一个视频编辑器Web应用"这样的简单指令，MiMo-V2.5-Pro便交付了一款可运行的Web应用，具备多轨道时间线、片段裁剪、交叉淡化、音频混合以及导出流程等功能。最终构建的代码量达8,192行，历经1,868次工具调用，在11.5小时的自主工作中完成。

小米 MiMo-V2.5-Pro 实测

Qwerty Learner词典导入终极指南：打造你的专属打字训练营

如何在GTA V中安全使用开源游戏增强框架：YimMenu完整指南

Hi3536双网口调试实录：手把手教你用STMMAC通用驱动点亮YT8511千兆PHY

艾尔登法环存档迁移终极指南：3分钟安全转移游戏角色

Vivado 2017.4 实战：手把手教你用状态机搞定AXI BRAM读写（附完整代码）

LLM-Paper-Daily：社区驱动的AI论文日报，高效追踪大模型前沿研究