过去一年,构建 AI Agent(智能体)通常意味着一套固定流程:搭建循环机制,接收用户指令、调用大语言模型(LLM),解析工具调用需求,执行工具,将结果回传,再重复这一过程。这种模式被称为浅层智能体(Shallow Agent),也即Agent 1.0。
Agent 1.0架构能高效处理 “今天天气如何?该穿什么衣服?” 这类事务性任务,但面对 “需耗时 3 天、分多步完成” 的复杂任务时力不从心。要么分心,要么丢失上下文,要么陷入无限循环,甚至产生幻觉。核心原因在于,单一上下文窗口无法承载如此多的任务步骤。如今,AI 智能体正迎来架构层面的转型,向能规划、善记忆、懂分工的深度智能体(Deep Agent)也即Agent 2.0演进,彻底突破复杂任务处理的瓶颈。
Agent 1.0:浅层循环的局限
要理解智能体的演进方向,需先明确当前的现状。目前大多数AI智能体均属“浅层”范畴,核心特征是完全依赖LLM的上下文窗口(对话历史)存储状态,无独立记忆或规划能力。
典型工作流程
以“查询苹果股票价格并判断是否值得买入”为例,Agent 1.0的运作逻辑如下:
- 用户指令:“查询苹果公司股价,并判断是否值得买入。”
- LLM 思考:“需要调用搜索工具。”
- 工具调用:执行搜索指令 “search (“AAPL stock price”)”。
- 结果观察:工具返回股价数据。
- LLM 响应:基于返回数据生成回答,或调用其他工具(如分析工具)。
- 循环:重复上述步骤,直至任务完成。
Agent 1.0 的核心短板
这种无状态、临时性的架构,在处理复杂任务时,会暴露固有缺陷:
- **上下文溢出:**工具调用会产生大量中间结果(如HTML代码、杂乱数据),这些信息会迅速填满有限的上下文窗口,将最初的指令和关键信息“挤出去”,导致模型失忆。
- **目标丢失:**中间步骤的大量信息干扰,会让智能体偏离核心任务,陷入无关的细节。
- **缺乏恢复机制:**一旦走入死胡同或陷入无限循环,浅层智能体缺乏回溯、停止并尝试新路径的前瞻性和机制,只能持续钻牛角尖。
简而言之,浅层智能体擅长处理5-15个步骤的任务,但面对需要500个步骤的复杂挑战则无能为力。
Agent 2.0:四大核心支柱
为解决上述问题,深度智能体(Agent 2.0)应运而生。它们不再仅仅是被动反应的循环,而是通过结合多种智能体模式,进行规划、管理持久化记忆/状态,并将工作委派给专业子智能体,以解决多步骤的复杂问题。Agent 2.0的突破,本质是将“规划”与“执行”解耦,并在上下文窗口外构建独立记忆系统。其架构由四大支柱构成,共同支撑多步骤、长时间的复杂任务处理。
支柱一:显性规划(Explicit Planning)
Agent 1.0的规划是隐性的,,通过思维链在脑海中形成“我应该先做X,再做Y”;而Agent 2.0会利用专门的工具创建一个可维护、可更新的显性计划,如Markdown格式的待办清单。
每完成一个步骤,智能体会更新计划状态,标记步骤为“待处理/进行中/已完成”,或添加备注。若某一步骤失败(如工具调用超时),它不会盲目重试,而是调整计划。这种机制确保了智能体始终聚焦于高层级任务。
支柱二:分层委派(Hierarchical Delegation)
复杂任务需要专业化分工,Agent 1.0试图身兼数职,用一个LLM处理所有环节;Agent 2.0则采用“协调者-子智能体”模式,实现高效分工。
协调者(Orchestrator)负责将具体任务拆解,委派给子智能体。子智能体拥有独立、干净的上下文窗口,且各有专精。它们各自执行自己的工具调用循环(搜索、出错、重试),最终将合成后的答案返回给协调者。这实现了任务的解耦和上下文的隔离。
支柱三:持久化记忆(Persistent Memory)
为解决上下文溢出问题,Agent 2.0利用外部存储作为事实的来源,例如文件系统或向量数据库。像Claude Code和Manus这样的框架为智能体提供了对这些存储的读写权限。
能体将中间结果(代码、草稿、原始数据)写入外部存储,,并标记清晰路径。后续的智能体无需记住所有信息,只需通过文件路径或数据库查询,调取所需内容即可。这实现了从“记住一切”到“知道去哪找信息”的范式转变。
支柱四:精细上下文工程(Extreme Context Engineering)
更强大的模型并非需要更少的提示,而是需要更优质的上下文。Agent 2.0依赖于极其详细的系统指令,有时长达数千个token。这些指令定义了:
- 何时需停止行动、先规划再执行;
- 何时应启动子智能体,何时需亲自处理任务;
- 工具的定义、使用方法和时机。
- 文件命名规则与目录结构标准;
- 人机协作的严格格式。
Agent 2.0工作流示例
结合四大支柱,Agent 2.0的实际运作流程可清晰呈现,以“研究量子计算并撰写总结文件”为例:
- 用户发起任务,协调者启动显性规划:协调者(由 LLM 担任 )创建显性计划,将任务拆解为可执行的步骤,如Research(调研)、Outline(列大纲)、Write(撰写)。
- 更新外部状态,锚定任务目标:协调者将拆解后的任务列表 [Research, Outline, Write] 写入外部记忆 / 状态(External Memory/State),实现任务进度的持久化记录,这一步直接解决了 Agent 1.0“无状态、易丢目标” 的问题。
- 分层委托,启动子智能体:协调者进入分层委托阶段,针对 “Research Quantum Computing” 子任务,生成专用子智能体(Sub-Agent: Researcher),并向其下发任务。子智能体(研究员)启动专属内部循环:Search web, read docs, filter noise。
- 子智能体返回结果,持久化存储:子智能体完成调研后,仅向协调者返回提炼后的总结,而非原始的海量数据)。协调者将总结写入外部存储:/memory/research_notes.txt,通过外部文件系统实现记忆持久化。
- 更新任务状态,循环推进:协调者在外部记忆中标记 “Research” 任务为 “COMPLETE”,然后进入下一个任务循环(如 “Outline”),持续以显性计划为锚点推进整体目标。
- 任务完成,向用户反馈结果:当所有子任务(Research、Outline、Write)完成后,协调者向用户返回最终结果:“Finished my research and created …”。
Agent 2.0的实际应用与实践工具
目前,Agent 2.0已在“深度研究”“代码开发”两大领域落地,主流模型提供商(如Anthropic、OpenAI)及初创公司均推出了针对性产品,典型案例包括:
- Claude Code:支持代码生成、调试与文件管理,可通过子智能体拆分复杂编程任务,并用文件系统存储代码草稿与测试数据;
- Manus:以持久化记忆为核心,擅长长时间研究任务,能将中间结论、文献摘要存入外部文件,支持跨天任务续接;
- Deep Research:专注学术或产业研究,通过“协调者-研究员”模式,批量处理文献检索、数据验证、报告撰写等环节。
这些成功的Agent 2.0都具备了以下四大特征:
- 详细的系统提示:Claude Code等系统的提示词非常长,包含了详细的操作指南和特定情境下的行为示例,这是其强大能力的基础。
- 规划工具:Claude Code使用的“待办列表”工具本身可能不执行任何实际操作,但它作为一种上下文工程策略,有效地将规划过程外化,使智能体保持正轨。
- 子智能体:通过生成专注于特定任务的子智能体,实现了任务的分解和上下文的精细管理,从而在单个主题上“钻探”得更深。
- 文件系统:文件系统不仅用于完成任务,还可用于记录笔记,并作为所有智能体协作的共享工作空间,充当了持久化记忆的角色。
为降低Agent 2.0的开发门槛,已有开源工具包问世(如deepagents),它内置了与上述特性对应的组件:一个通用的系统提示、一个无操作的规划工具、生成子智能体的能力以及一个模拟的虚拟文件系统,允许开发者通过自定义提示、工具和子智能体来快速创建垂直领域的深度智能体。
小结
AI智能体从1.0到2.0的演进,绝非给LLM多接几个工具这么简单,而是从被动响应循环到主动规划架构的根本性转变,核心是通过工程化设计弥补LLM的局限。
借助显性规划、分层委托、持久化记忆三大手段,Agent 2.0实现了上下文可控;而上下文可控又进一步解锁了复杂度可控,让AI首次具备处理耗时几小时甚至几天的复杂任务的能力,将AI智能体的应用边界推向一个全新的高度。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。