news 2026/6/26 23:40:57

Agentic Loop 的残酷现实:外部拒绝门禁才是成败关键,而非“睡醒后代理自动发货”

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Agentic Loop 的残酷现实:外部拒绝门禁才是成败关键,而非“睡醒后代理自动发货”

现在几乎所有人都在讨论构建 Agentic Loop。
大 V 们不再写提示词了,他们在建循环。每个星期都有新帖子告诉你“为什么你也应该这么做”。

但那些帖子几乎都漏掉了最重要的一点。

大多数人构建的循环,其实只是在烧钱。

Human-in-the-Loop vs 真正的 Agentic Loop

目前大多数人使用 AI 的方式,本质上还是人一直在循环里

你提示 → 代理构建 → 你审查 → 你再提示 → ……
你就是那个发动机。一旦你停止输入,工作就停了。

这叫 Human-in-the-Loop。它有效,但有硬性上限。

而一个真正的 Agentic Loop,会把人从大部分循环中移除:
你只在最开始扔一个规格文档(spec),然后代理自己构建、自我检查、把结果喂回自己,继续迭代,直到完成。你只需要在最后回来验收。

理论上:你睡觉,代理发货。
现实中:你醒来,看到几百美元的账单和一堆破损的构建。

真实成本远比想象中高

一个中等复杂度的编码任务,每次迭代大约消耗 3 万输入 token(Claude Sonnet 4.6 定价)。一次迭代约 0.09 美元。

听起来还可以接受。
但问题在于:上下文窗口会随着迭代不断膨胀。到第 5 次迭代时,输入可能已经涨到 8 万 token。

一个任务跑几次就可能花掉几美元。十个任务下来,一早上的花费就能达到 10-20 美元。

对 20 美元/月的订阅来说,这几乎是整个月的额度。
对 100 美元/月的订阅来说,也就够用一周。

真正大规模跑循环的人(比如 Peter),一个月能烧掉 130 万美元的 token。
你不需要达到那个量级,就能明显感受到账单的压力。

规格文档无法解决的根本问题

即使你愿意承担成本,还有一个更深层的问题:规格文档永远写不全你脑子里的假设

你给代理一个 spec,让它从头到尾把东西做完,它就会自己做假设。
有时候这些假设是对的,但大多数时候是错的。

你拿到的结果往往不是你真正想要的。
代理会以极快的速度、在极大规模上犯这些假设错误,并且让你为每一次错误的尝试付费。

如果你要用 spec,就必须把重点放在消除假设上,而不是描述功能:

  • 明确约束(agent 绝对不能做什么)
  • 视觉/交互参考(链接或明确描述你想要的模式,而不是“像我脑子里想的那样”)
  • 每个功能的验收标准(具体到什么情况下你会说“这个完成了”)

大多数 spec 只告诉代理“要做什么”,而代理真正需要的是“怎么知道自己做完了,以及绝对不能改动什么”。

没有外部拒绝机制的循环 = 老虎机

没有硬性反馈机制的循环,本质上就是一个老虎机

你拉一下拉杆,有时出来一个还不错的结果,大多数时候出来一个“差不多但细节不对、基于你从未说过的假设”的东西。

循环自己并不知道它做错了。
它没有办法知道。
只有你知道。

而一旦你不在循环里,这个信息就永远无法反馈给代理。

这不是技术 bug,而是结构性限制:把创造性判断委托给一个无法访问你脑子里真实想法的系统。

循环之所以像老虎机,不是偶然,而是因为它本来就是老虎机——直到你给它一个能自动拒绝坏输出的外部机制

真正能跑通的循环:必须有外部二元拒绝门禁

循环从烧钱机器变成有用工具的转折点,是拥有一个固定、自动、且不需要你主观判断的拒绝机制。

代码审查是目前最清晰的例子。

作者把 AI 生成的代码推送到 GitHub 后,由 Greptile 自动进行代码审查。它不是总结代码,而是给出一个 1-5 分的评分,并给出具体问题。

规则非常简单:评分低于 4 分就不能上生产

具体循环流程:

  1. Cursor 读取 GitHub 上的 Greptile 审查结果
  2. Cursor 根据审查指出的问题进行修改
  3. Cursor 把更新后的代码推送到 GitHub
  4. Greptile 自动运行新的审查
  5. 如果评分仍低于 4 分,循环继续
  6. 直到评分达到 4 或 5 分,或达到最大尝试次数后停止

这个循环能工作的核心原因在于:反馈是二元的。Greptile 要么通过,要么不通过。没有灰色地带,也没有“差不多就行”的主观判断。

这才是区分“帮你省时间”和“帮你烧钱”的关键。

循环真正适用的三种场景

  1. 代码审查(目前最成熟)
  2. 大规模二元输出任务(例如按固定模板生成 300 篇 SEO 页面,可以用简单脚本检查字数、标题结构、关键词出现等,失败就自动打回)
  3. 低风险实验(你只想要一个粗糙可用的形状,不在乎细节是否完美)

除此之外,对于需要体现产品愿景、细节很重要的工作,Human-in-the-Loop 仍然是目前最好的选择

构建循环前必须回答的 4 个问题

一个任务是否值得做成循环,只需要回答下面这个问题:

有没有什么机制能自动拒绝坏输出,而不需要你主观判断?

(测试套件通过/失败、类型检查零错误、评分超过阈值、构建能否编译等)

如果答案是 Yes,才有可能值得构建循环。

如果答案是 No,你就是在建造一台一边花你的钱,一边自己给自己打分的机器

更完整的判断标准是同时满足以下 4 点:

  • 任务至少每周重复一次
  • 存在能自动拒绝坏输出的外部机制(不需要你的判断)
  • 代理能端到端完成整个工作
  • “完成”的定义是客观的,而不是主观品味

缺一条,就先保持手动提示。

先把手动版跑稳,再考虑自动化

如果你决定要做循环,先把手动版本做可靠

先用手跑一次,把流程调到你满意的程度。把它做成可复用的技能,加入门禁和停止条件,最后再放到定时器上。

直接跳到自动化,是大多数循环在半夜崩溃的主要原因。

此外,对于无人值守的循环,CLAUDE.md 文件比手动模式下重要得多。因为循环里没有中途纠正的机会,代理只能依赖启动前上下文里的所有约束和标准。

一个可立即使用的自检循环提示词

你将以循环方式工作,直到任务达到标准。 TASK: [精确描述你要产出的东西] SUCCESS CRITERIA: - [标准 1] - [标准 2] 循环协议(每轮重复): 1. PLAN: 说明下一步唯一要做的动作 2. DO: 产出或改进工作 3. VERIFY: 按每个标准打 1-10 分,并列出具体还差在哪里 4. DECIDE: 如果所有标准都 ≥8 分,输出 FINAL 并停止;否则输出 ITERATING 并修复最弱的一项 永远不要在所有标准都达到 8 分以上之前宣布完成。不要提问,做合理假设并记录下来,继续推进。

这个提示词可以直接丢进 Claude 或 ChatGPT 使用,无需任何额外设置,就能先体验一个带自检的循环。

总结:2026 年 6 月的真实边界

未来可能会有完全可靠、能让你安心睡觉的 Agentic Loop。

但那个未来还不是现在。

目前,循环只在以下场景真正靠谱:

  • 有外部二元拒绝门禁的任务(尤其是代码审查)
  • 大规模二元输出任务
  • 低风险、不在乎细节的实验

对于真正需要体现你脑子里产品愿景的工作,你仍然是最好的那个循环。

Human-in-the-loop 不是技术落后,而是目前最诚实的答案。

我是紫微AI,在做一个「人格操作系统(ZPF)」。后面会持续分享AI Agent和系统实验。感兴趣可以关注,我们下期见。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 23:36:54

Nginx安全升级实战指南:从漏洞修复到持续运维

1. 项目概述:为什么说“升级”是修复Nginx漏洞的黄金法则? 在运维和开发圈子里,Nginx就像空气和水,无处不在。无论是作为Web服务器扛起流量,还是作为反向代理、负载均衡器、API网关,它都是现代互联网架构的…

作者头像 李华
网站建设 2026/6/26 23:36:53

N_m3u8DL-RE:跨平台流媒体下载工具的终极指南 [特殊字符]

N_m3u8DL-RE:跨平台流媒体下载工具的终极指南 🚀 【免费下载链接】N_m3u8DL-RE Cross-Platform, modern and powerful stream downloader for MPD/M3U8/ISM. English/简体中文/繁體中文. 项目地址: https://gitcode.com/GitHub_Trending/nm3/N_m3u8DL…

作者头像 李华
网站建设 2026/6/26 23:36:40

抖音卡黑屏技术原理与防御指南:从网络攻击到平台风控

1. 项目概述:抖音卡黑屏现象的本质与影响最近在和一些做短视频内容的朋友交流时,发现一个高频出现的词:“抖音卡黑屏”。这可不是指你的手机卡顿导致屏幕变黑,而是一个在特定圈子里心照不宣的“操作”。简单来说,它指的…

作者头像 李华
网站建设 2026/6/26 23:31:16

质量管理-OQC是指什么?

OQC的定义OQC(Outgoing Quality Control)即出货质量控制,是质量管理体系中的关键环节,指在产品出厂交付客户前进行的最终质量检验。其目的是确保产品符合客户要求及行业标准,防止不合格品流入市场。OQC的核心目标确保产…

作者头像 李华
网站建设 2026/6/26 23:29:50

Java RSA加密实战:从原理到生产级实现与安全优化

1. 项目概述:为什么在Java里实现RSA依然重要?最近在整理团队内部的安全编码规范,发现不少同事对非对称加密的理解还停留在“公钥加密、私钥解密”这个口号上,真要自己动手实现一个完整的RSA流程,从密钥生成到加解密再到…

作者头像 李华