news 2026/4/23 13:18:00

<span class=“js_title_inner“>彻底爆了!阿里最新大模型,再次拿下第一!</span>

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
<span class=“js_title_inner“>彻底爆了!阿里最新大模型,再次拿下第一!</span>

你好,我是郭震

这周末有读者问我,现在解决复杂问题最好的AI模型都有哪些?这篇文章我来给分析总结下这个问题,感兴趣的朋友可以看看这篇文章。

大家有没有注意到,现在的大模型发展趋势正在从“拼参数”转向“拼逻辑”。简单来说,以前咱们希望 AI 反应快,现在我们更希望 AI 想得深。

比如这两天,阿里正式发布的千问旗舰推理模型Qwen3-Max-Thinking

得分上国内目前第一,如下图所示,性能媲美Gemini-3和GPT-5.2,代表了当前国产大模型的最高水准:

截图来自Qwen大模型官方文档

得分固然重要,但是真好用才是王道,接下来重点测试下其原生 Agent的这些能力,准备了三个案例,也是大家日常工作和学习中经常用到的。

1Qwen3-Max-Thinking

咱们先看看它的技术文档,Qwen3-Max-Thinking主打的是Test-time Scaling(测试时扩展)机制。

通俗点解释,就是模型在回答复杂问题时,不会急着给出“直觉式”的答案,而是会给自己预留一段“思考时间”,在内部进行多轮推导和自我纠错,比如我提问如下问题经典复杂ABC三人说谎推理问题:

发送给它后,它会在回答问题前先做以下4步思考后:

才开始输出正式内容,如下为答案内容部分截图:

大家不要小瞧这个逻辑问题,实际还是挺考验大模型的推理能力,比如GPT-5.2就回答错误了:

Qwen3-Max-Thinking 核心突破在于原生 Agent 能力的质变:模型集成了搜索、记忆、代码解释器三大核心组件,并具备了自主决策权。

怎么通俗理解这个能力呢?举个例子,以前你让 AI 处理个 Excel 表格,它是“用嘴算”,很容易算错。

现在它会自己写一段代码,然后在后台运行,最后把运行结果告诉你。就像你让会计算账,他不会心算,而是拿出了计算器。这种工具与思考同步的机制,显著降低了幻觉率,使其具备了处理高复杂度现实问题的能力。

2 Agent能力之分析Excel表

下面是一个1000行5列的Excel测试表格,数据如下图所示:

我们直接把这个Excel表丢给Qwen3-Max-Thinking,具体步骤如下。首先访问:

https://chat.qwen.ai/

然后选择Qwen3-Max模型,这就是它家最新发布的旗舰思考模型:

使用都是免费的,然后上传这个Excel表格:

输入下面提示词:

回车后,可以看到它思考了一下后,自主判断需要调用代码解释器工具,并在右侧自动生成了数据分析代码:

注意到现在它还没有开始正式回答,直到思考完成,才开始生成正式的答案,部分截图如下所示:

并输出下面按照部门透视的可视化柱状图:

同样的数据和提示词,发给GPT-5.2,输出Python代码,中间输出下面错误:

这种任务换做以前的AI,是不太可能直接做精准统计分析,并生成这样的可视化图。但是现在的大模型已经做到了,Qwen3-Max-Thinking 这种原生 Agent 能力的质变,它不再是一个单纯的聊天机器人,而是集成代码解释器等外部工具,并具备了自主决策权

3 Agent能力之深度搜索


Qwen3-Max-Thinking 这次介绍说,具备了原生 Agent 的搜索能力。我试着问了一个需要跨时间、跨平台验证的问题。

测试题目:帮我分析一下 SanDisk(闪迪)的股票近期走势,如下图所示:

这是一个有坑的问题,因为 SanDisk 早就被收购了,现在作为独立股票是不存在的。

它在回答前开始做这样的思考,如下图所示:

具体来说,第一步思考如下所示:

第二步思考,搜索外部网页,如下图所示:

第三步思考,核实信息并澄清事实,如下图所示:

大家注意看上图,它发现了一个网络流传,说法可能缺乏依据,所以稳妥起见,它开始新一轮网页搜索,试图确认这个假设:

最后得出精准分析结果,如下图所示:

整个在回答问题前,一共进行了64个网页知识,经历了两轮思考:

最后再输出结果:

并且生成的答案中都带有引用出处,比较方便看到股票历史走势:

整个过程,Qwen3-Max-Thinking 展现了一种类似人类研究员的反复验证过程,在针对一些小众领域的知识检索上,这个检索精度就比较让人放心了,能引用多达几十个信源进行交叉验证。

4 复刻图表能力

除此以外,还可以直接复刻下面的图表,拿到对应代码。

具体来说这样提问:复刻这样可视化图表,完整代码

下面是它的思考过程GIF图,限于帧数限制,只截取前几帧:

生成如下HTML代码,这是最开始代码截图:

下载代码,双击打开效果如下图所示:

一次运行成功,相似度还是很高的。

总结一下

Qwen3-Max-Thinking通过 Test-time Scaling 先思考再作答,复杂推理更稳。

更关键的是“原生 Agent”能力:能自主选择并调用代码解释器、搜索与记忆,把 Excel 分析、可视化、图表复刻这类任务从“用嘴算”升级为“能跑代码”。

实测了它在工具协同与深度检索的交叉验证上能力,尤其适合复杂问题与需要可追溯出处的场景。后面科研遇到复杂问题,我又多了一个利器,大家感兴趣的也可以去试试。


以上全文 2299 字,30张图。若可以,给我个三连击:点赞、转发和在看。若可以再给我加个⭐️,谢谢你看我的文章,我们下篇再见。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 13:03:41

深度解析:恒玄科技 Android 系统工程师/架构师岗位 - 技术挑战、能力要求与面试指南

恒玄科技(上海)股份有限公司 Android系统工程师/架构师 职位信息 岗位职能: 1. 负责Android在SoC平台的移植和适配 2. 负责Android的定制化开发和优化 岗位要求: 1. 计算机,电子工程等相关专业本科/硕士以上学历 2. 3年以上嵌入式系统和软件开发经验 3. 熟练使用C++/JAVA进…

作者头像 李华
网站建设 2026/4/23 13:10:54

深入 Android 驱动开发:内核、外设、系统调优与职业实践

深圳市广和通无线股份有限公司 深圳市广和通无线股份有限公司 职位信息 工作职责: 1、根据项目需求,进行需求分析、软件设计、开发、调试、测试等; 2、负责Android系统内核相关的外设驱动开发、调试、维护以及操作系统的bringup、稳定性调试与性能优化等工作; 4、与测试、硬…

作者头像 李华
网站建设 2026/4/18 11:46:12

实验室预约管理系统(开源 FastAPI + Vue )

源码下载: 「28-实验室预约系统」 链接:https://pan.quark.cn/s/46e6d24d4ff6 实验室预约管理系统 一个基于 FastAPI SQLite HTML/JS 的实验室预约管理系统,支持学生预约、教师审核、管理员管理的完整流程。 项目简介 本系统旨在解决学校实…

作者头像 李华
网站建设 2026/4/13 1:27:06

企业级人事管理系统管理系统源码|SpringBoot+Vue+MyBatis架构+MySQL数据库【完整版】

摘要 随着企业规模的扩大和信息化建设的深入,传统的人事管理模式已无法满足现代企业对高效、精准、智能化管理的需求。企业人事管理涉及员工信息、考勤、薪资、绩效等多维度数据,传统手工操作或单机版管理系统存在数据孤岛、效率低下、易出错等问题。因…

作者头像 李华
网站建设 2026/4/12 19:36:14

【毕业设计】SpringBoot+Vue+MySQL 小区团购管理平台源码+数据库+论文+部署文档

摘要 随着互联网技术的快速发展和社区经济的兴起,小区团购模式逐渐成为居民日常生活中不可或缺的一部分。传统的团购方式存在信息不透明、管理效率低下、沟通成本高等问题,难以满足现代社区居民对便捷、高效购物体验的需求。基于此,开发一款小…

作者头像 李华
网站建设 2026/4/23 12:26:13

主题生成AI PPT工具横评:ChatPPT何以成为公认第一?

主题生成AI PPT工具横评:ChatPPT何以成为公认第一? 输入一句话,3分钟内一份专业精美的PPT即刻生成。AI正在重新定义演示文稿的制作方式。 在快节奏的职场与学术环境中,PPT制作已成为一项基本且耗时的工作。传统PPT制作流程涉及内容…

作者头像 李华