news 2026/4/23 11:13:18

<span class=“js_title_inner“>LLM已死,Agent当立:Agentic Reasoning的范式革命</span>

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
<span class=“js_title_inner“>LLM已死,Agent当立:Agentic Reasoning的范式革命</span>

如果在 2023 年,我们还在为 ChatGPT 能写出一首打油诗而惊叹,那么到了 2026 年的今天,单纯的“文本生成”已经无法满足我们对 AGI 的胃口了。我们痛苦地发现:即便模型参数大到离谱,它依然是一个“被动”的预言家——它只能根据你给的 Prompt 算概率,却无法像人一样去“试错”、去“查证”、去“反思”。

  • 论文:Agentic Reasoning for Large Language Models

  • 链接:https://arxiv.org/pdf/2601.12538

今天我们要拆解的这篇论文《Agentic Reasoning for Large Language Models》,与其说是一篇综述,不如说是给所有做 Agent 的人发的一张“藏宝图”。它不仅仅总结了过去几年的技术,更重要的是,它正式宣告了 LLM 从“Static Reasoning”(静态推理)向 “Agentic Reasoning”(代理推理)的范式转移

这不是简单的“加个插件”那么简单,这是一次对智能本质的重新建模。

认知的跃迁:从“大脑缸中之脑”到“具身行动者”

这篇论文最核心的洞察在于:Reasoning(推理)不应该只是发生在 Transformer 内部的矩阵乘法,而应该是一个物理过程。

让我们看一张图:

  • 传统 LLM Reasoning:Input -> Internal Compute -> Output。这是一次性的,像是在闭卷考试。

  • Agentic Reasoning:Observation -> Plan -> Act -> Feedback -> Memory -> Refine。这是一个闭环,像是在做科学实验。

作者非常敏锐地指出,这种转变在数学上其实是将 LLM 放入了一个POMDP(部分可观测马尔可夫决策过程)中。这不仅是数学游戏,它深刻地改变了我们训练和使用模型的方式。

那个打破僵局的公式

论文中给出了一个非常漂亮的分解公式,将“思考”与“行动”在数学上解耦了:

  • (Internal Thought):这是模型的“内心戏”,比如 CoT(思维链)或者潜在的规划。这部分是不可见的、纯计算的。

  • (External Action):这是模型对世界产生的影响,比如调用 API、写文件、移动机器人手臂。

  • :历史上下文。

Why it matters?以前我们训练模型,是希望它直接输出(比如直接写出代码)。现在我们意识到,必须显式地建模(先想好架构,再写代码)。这种“Think before you Act”的数学表达,正是最近 DeepSeek-R1 等 Reasoning 模型大火的理论根基。

进化的三重奏:Agentic Reasoning 的完整版图

论文没有堆砌算法,而是构建了一个名为“三维互补”的宏大框架。这非常有意思,它把 Agent 的能力分成了三个层级,像极了生物进化的过程。

1. Foundational(基石):单兵作战的能力

这是 Agent 的基本功,类似于人类学会使用工具。论文将其细分为三个核心要素:

  • Planning(规划):不是简单的“一步步来”,而是引入了搜索算法。论文特别提到了从简单的 Chain-of-Thought 到复杂的MCTS (蒙特卡洛树搜索)的演变 。现在的 Agent 在回答问题前,会在脑子里“模拟”无数种可能,就像下围棋一样。

  • Tool Use(工具):关键点在于从“模仿”(SFT)到“精通”(RL)。早期的 Toolformer 只是在模仿人类调用 API,而现在的 Agent 通过 RL 学习何时调用工具、如何处理报错 。

  • Search(搜索):这超越了传统的 RAG。Agentic Search 是动态的——Agent 自己决定“我要不要查资料”、“查到的够不够”、“要不要换个关键词再查一次” 。

2. Self-Evolving(进化):从经验中学习

这一点最让我兴奋。目前的绝大多数 Agent 都是“失忆”的——你在这就聊得火热,换个 Session 它就不认识你了。但Self-Evolving Agent引入了两个关键机制:

  • Feedback (反馈循环):不仅仅是人类给点赞,而是包括Reflective Feedback(自我反思,如 Reflexion)和Validator-Driven Feedback(比如代码跑不通报错了,Agent 自动看懂报错并重写) 。

  • Agentic Memory (动态记忆):记忆不再是简单的 Vector DB 检索。论文提出了Memory-as-Action的概念 ——Agent 会主动决定“这句话很重要,我要写进长期记忆”或者“这个策略过时了,我要忘掉它”。这意味着模型在不更新参数的情况下,随着使用变得越来越“聪明”。

3. Collective(协作):群体智能的涌现

当单体智能遇到瓶颈时,大自然给出的答案是“群体”。论文详细探讨了从静态角色扮演(如 CAMEL, AutoGen)到动态共同进化(Multi-Agent Co-Evolution)的跨越 。 最精彩的部分在于“协作即推理” (Collaboration as Reasoning)的观点:一个 Agent 的输出(Action)成为了另一个 Agent 的输入(Prompt),这种通过 Communication 传递的信息流,本质上是一个分布式的推理过程 。

In-context vs. Post-training:两条路线之争

在如何实现上述能力时,论文犀利地指出了当前的两大技术流派:

  • 派系一:In-context Reasoning (推理时编排)

    • 做法:也就是 Prompt Engineering 的极致。通过复杂的 Prompt 流程(如 ReAct, Plan-and-Solve)来激发模型的潜能。

    • 优点:灵活,不需要训练,即插即用。

    • 缺点:受到 Context Window 限制,且推理成本极高(Token 燃烧机) 。

  • 派系二:Post-training Reasoning (训练后内化)

    • 做法:通过 SFT 和 RL(特别是像 GRPO 这样的算法)将推理模式“烧录”进模型参数里 。

    • 核心洞察:就像 DeepSeek-R1 做的那样,让模型内化“搜索”和“反思”的过程。论文提到,未来的趋势一定是System 2 的能力逐渐被蒸馏进 System 1 的直觉中

实验与应用:不只是纸上谈兵

这篇 Survey 的扎实之处在于它涵盖了大量垂直领域的落地情况。

  • 上图展示了应用版图,特别值得关注的是Scientific Discovery(科学发现)

    • 例如AI Scientist这样的系统,已经不仅仅是辅助查资料,而是能独立提出假设、设计实验、编写代码验证、甚至撰写论文。在这里,Agent 实际上是在遍历一个巨大的“科学假设空间”。

  • Math & Coding:这里的 Agent 已经不仅是做题家,而是探险家。通过Self-CorrectionExecution Feedback,Agent 可以在写代码时自己写单元测试来验证自己的逻辑 。

局限与未来:你的 Agent 还缺什么?

文章最后 提出的 Open Problems 非常值得深思,这里挑两个最痛的:

  1. World Models (世界模型) 的缺失:目前的 Agent 很多时候是在“瞎猜”行动后的结果。如果 Agent 脑子里有一个 World Model,能模拟“如果我删了这个文件会发生什么”,它的规划能力将会有质的飞跃。

  2. Latent Agentic Reasoning (隐式推理):现在的 CoT 都是自然语言,这其实效率很低。未来,模型可能会在高维向量空间里直接进行“纯思维”的规划,而不需要把每一步都翻译成人类语言。

总结

这篇Agentic Reasoning的论文告诉我们,我们正处在 AI 发展的十字路口:我们不再仅仅是在训练“模型”,我们是在设计“系统”。

未来的 AI 护城河,可能不在于你有一个多大的 Base Model,而在于你构建了多强大的Agentic Loop——你的 Agent 能否在环境中生存、记忆、反思,并与他人协作。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 4:09:58

春节流量洪峰将至,你的AI应用“扛得住”吗?

传送锚点一、Remy:3D内容“全民化”的先锋二、算力如水:按需调度,秒级扩缩三、找靠谱的战友,过个安心年用户指尖轻点,AI生成专属祝福视频; 语音唤醒,智能助手实时解读春晚梗; 顺手…

作者头像 李华
网站建设 2026/4/6 6:06:18

音视频学习(八十七):AVCC、HVCC和VVCC

概念:Annex-B vs. 模式化封装 在深入这三个格式之前,我们需要理解视频流的两种基本组织方式: Annex-B (字节流模式): 主要用于直播流(如 TS、HLS)。它使用特殊的“起始码”(如 00 00 00 01&am…

作者头像 李华
网站建设 2026/4/21 9:29:46

YOLOv11涨点改进 |全网独家、特征融合创新篇 | TGRS 2026 | 引入MFPM多频感知融合模块,通过频率感知的判别过滤器,使融合特征“干净、聚焦”,适合红外、遥感小目标检测,有效涨点改进

一、本文介绍 🔥本文给大家介绍使用 MFPM 多频感知融合模块模块改进 YOLOv11 网络模型,可以在多尺度特征融合阶段显著提升特征的判别质量。MFPM 通过频域建模与多频选择机制,对高层语义特征进行重标定,有效抑制复杂背景和目标样噪声,同时放大真实目标在频谱中的稳定响应…

作者头像 李华
网站建设 2026/4/13 12:39:25

YOLOv13涨点改进 | HyperACE、注意力创新改进篇 | TGRS 2025 | 引入ACA非对称跨域注意力机制,一种轻量特征增强机制,含多种创新改进,助力小目标检测有效涨点

一、本文介绍 🔥本文给大家介绍使用 ACA非对称跨域注意力机制改进 YOLOv13 网络模型,能显著提升其对小目标和复杂场景的检测能力。ACA 通过非对称卷积提取不同方向的特征信息,增强网络对目标边缘和结构的感知,尤其适合红外图像、小目标和密集场景。同时,模块结构轻量,计…

作者头像 李华
网站建设 2026/4/13 11:02:45

【数据分析:三】指标思维:如何搞清楚各种不同的指标类型

上一讲,我提到了数据分析师要做到客观严谨,其中的客观就要求我们所有的观点都要有事实依据,尤其是作为数据分析师,我们要用数据来描述事实。但是面对数据库中那么多的表,那么多字段,究竟用什么样的数据来准…

作者头像 李华
网站建设 2026/4/17 20:17:42

京东家政全国百城招募20万人 免费培训打造家政职业化人才

新春临近,家政服务市场迎来需求爆发。年末大扫除、家电清洗等刚需服务订单量激增,行业用工缺口凸显。据京东家政数据显示,春节前高峰时段,擦玻璃、油烟机清洗等订单较日常增长10倍以上,春节留守岗位的保洁师预约都已排…

作者头像 李华