＜span class=“js_title_inner“＞彻底爆了！阿里最新大模型，再次拿下第一！＜/span＞-深圳市維司達科技有限公司

你好，我是郭震

这周末有读者问我，现在解决复杂问题最好的AI模型都有哪些？这篇文章我来给分析总结下这个问题，感兴趣的朋友可以看看这篇文章。

大家有没有注意到，现在的大模型发展趋势正在从“拼参数”转向“拼逻辑”。简单来说，以前咱们希望 AI 反应快，现在我们更希望 AI 想得深。

比如这两天，阿里正式发布的千问旗舰推理模型Qwen3-Max-Thinking：

得分上国内目前第一，如下图所示，性能媲美Gemini-3和GPT-5.2，代表了当前国产大模型的最高水准：

截图来自Qwen大模型官方文档

得分固然重要，但是真好用才是王道，接下来重点测试下其原生 Agent的这些能力，准备了三个案例，也是大家日常工作和学习中经常用到的。

1Qwen3-Max-Thinking

咱们先看看它的技术文档，Qwen3-Max-Thinking主打的是Test-time Scaling（测试时扩展）机制。

通俗点解释，就是模型在回答复杂问题时，不会急着给出“直觉式”的答案，而是会给自己预留一段“思考时间”，在内部进行多轮推导和自我纠错，比如我提问如下问题经典复杂ABC三人说谎推理问题：

发送给它后，它会在回答问题前先做以下4步思考后：

才开始输出正式内容，如下为答案内容部分截图：

大家不要小瞧这个逻辑问题，实际还是挺考验大模型的推理能力，比如GPT-5.2就回答错误了：

Qwen3-Max-Thinking 核心突破在于原生 Agent 能力的质变：模型集成了搜索、记忆、代码解释器三大核心组件，并具备了自主决策权。

怎么通俗理解这个能力呢？举个例子，以前你让 AI 处理个 Excel 表格，它是“用嘴算”，很容易算错。

现在它会自己写一段代码，然后在后台运行，最后把运行结果告诉你。就像你让会计算账，他不会心算，而是拿出了计算器。这种工具与思考同步的机制，显著降低了幻觉率，使其具备了处理高复杂度现实问题的能力。

2 Agent能力之分析Excel表

下面是一个1000行5列的Excel测试表格，数据如下图所示：

我们直接把这个Excel表丢给Qwen3-Max-Thinking，具体步骤如下。首先访问：

https://chat.qwen.ai/

然后选择Qwen3-Max模型，这就是它家最新发布的旗舰思考模型：

使用都是免费的，然后上传这个Excel表格：

输入下面提示词：

回车后，可以看到它思考了一下后，自主判断需要调用代码解释器工具，并在右侧自动生成了数据分析代码：

注意到现在它还没有开始正式回答，直到思考完成，才开始生成正式的答案，部分截图如下所示：

并输出下面按照部门透视的可视化柱状图：

同样的数据和提示词，发给GPT-5.2，输出Python代码，中间输出下面错误：

这种任务换做以前的AI，是不太可能直接做精准统计分析，并生成这样的可视化图。但是现在的大模型已经做到了，Qwen3-Max-Thinking 这种原生 Agent 能力的质变，它不再是一个单纯的聊天机器人，而是集成代码解释器等外部工具，并具备了自主决策权。

3 Agent能力之深度搜索

Qwen3-Max-Thinking 这次介绍说，具备了原生 Agent 的搜索能力。我试着问了一个需要跨时间、跨平台验证的问题。

测试题目：帮我分析一下 SanDisk（闪迪）的股票近期走势，如下图所示：

这是一个有坑的问题，因为 SanDisk 早就被收购了，现在作为独立股票是不存在的。

它在回答前开始做这样的思考，如下图所示：

具体来说，第一步思考如下所示：

第二步思考，搜索外部网页，如下图所示：

第三步思考，核实信息并澄清事实，如下图所示：

大家注意看上图，它发现了一个网络流传，说法可能缺乏依据，所以稳妥起见，它开始新一轮网页搜索，试图确认这个假设：

最后得出精准分析结果，如下图所示：

整个在回答问题前，一共进行了64个网页知识，经历了两轮思考：

最后再输出结果：

并且生成的答案中都带有引用出处，比较方便看到股票历史走势：

整个过程，Qwen3-Max-Thinking 展现了一种类似人类研究员的反复验证过程，在针对一些小众领域的知识检索上，这个检索精度就比较让人放心了，能引用多达几十个信源进行交叉验证。

4 复刻图表能力

除此以外，还可以直接复刻下面的图表，拿到对应代码。

具体来说这样提问：复刻这样可视化图表，完整代码

下面是它的思考过程GIF图，限于帧数限制，只截取前几帧：

生成如下HTML代码，这是最开始代码截图：

下载代码，双击打开效果如下图所示：

一次运行成功，相似度还是很高的。

总结一下

＜span class=“js_title_inner“＞彻底爆了！阿里最新大模型，再次拿下第一！＜/span＞

3 Agent能力之深度搜索

Qwen3-Max-Thinking通过 Test-time Scaling 先思考再作答，复杂推理更稳。

更关键的是“原生 Agent”能力：能自主选择并调用代码解释器、搜索与记忆，把 Excel 分析、可视化、图表复刻这类任务从“用嘴算”升级为“能跑代码”。

实测了它在工具协同与深度检索的交叉验证上能力，尤其适合复杂问题与需要可追溯出处的场景。后面科研遇到复杂问题，我又多了一个利器，大家感兴趣的也可以去试试。

以上全文 2299 字，30张图。若可以，给我个三连击：点赞、转发和在看。若可以再给我加个⭐️，谢谢你看我的文章，我们下篇再见。

深度解析：恒玄科技 Android 系统工程师/架构师岗位 - 技术挑战、能力要求与面试指南

深入 Android 驱动开发：内核、外设、系统调优与职业实践

实验室预约管理系统（开源 FastAPI + Vue ）

企业级人事管理系统管理系统源码｜SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

【毕业设计】SpringBoot+Vue+MySQL 小区团购管理平台源码+数据库+论文+部署文档

主题生成AI PPT工具横评：ChatPPT何以成为公认第一？