收藏！ Harness Engineering：小白也能掌握的AI大模型实战秘籍-深圳市維司達科技有限公司

Harness Engineering是一种通过配置和基础设施约束AI Agent行为，使其在特定任务上稳定产出高质量结果的工程实践。它将LLM比作没有规矩的实习生，需要配工位、订流程、定规矩才能干活。文章从概念、演进历史、运作原理、解决的问题及市面选择等方面进行了详细阐述，旨在帮助读者理解和应用Harness Engineering，提升AI Agent的执行效率和稳定性。

Part 1：Harness Engineering 到底是什么

先说定义。

Harness Engineering 是一种工程实践，核心思路是：通过配置和基础设施来约束 AI Agent 的行为，让它在特定任务上稳定地产出高质量结果。

你可以把 LLM 想成一个智商爆表但没有任何规矩的实习生。他什么都能干，但你需要给他配工位、订流程、定规矩，他才能真正干活。

Prompt Engineering 是教你怎么跟这个实习生说话，Context Engineering 是教你怎么把资料递到他面前。

Harness Engineering 则是给这个实习生配一套完整的工作站，包括他该看什么文档、能用什么工具、犯错时怎么纠正、干完活谁来验收。

Agent = LLM + Harness。
模型负责想，Harness 负责管。

2022 到 2024 年，大家研究的是怎么跟 AI 说话（Prompt Engineering）。

2025 年，Anthropic 提出了 Context Engineering，关注的是上下文管理。

到了 2026 年，人们发现光管好输入不够，你得管住整个执行流程，Harness Engineering 就此登场。

Harness Engineering概念不是凭空冒出来的。它背后有一段挺有意思的演进历史。

Part 2：它从哪来的

AI Agent 的发展，说白了就是一部怎么让 AI 少犯蠢的血泪史。

2022 年，ChatGPT 爆火，开发者们开始疯狂研究怎么写 prompt 能让 AI 写出更好的代码。

那时候提示词工程还很火，我们和 AI 对话要先定身份，再说诉求，在给正反例等等。

提示词工程要求我们将描述清楚，AI 才能给你满意的答案。

这个阶段叫 Prompt Engineering，持续了大概两年。

后面大家发现，你写的 prompt 再好，AI 该犯蠢还是犯蠢。

AI 的记忆只有那么大的窗口。你写的 prompt 再好，上下文一溢出，它就跟失忆一样。

2025 年，Anthropic 提出了 Context Engineering 的概念，核心关注点变成了"怎么管理 AI 能看到的信息"。

CLAUDE.md 文件、上下文窗口预算管理、渐进式披露这些都是 Context Engineering 的产物。

而现在，开发者们开始搭一整套基础设施来管理 AI Agent 的完整生命周期。

记忆管理、工具编排、验证循环、执行追踪等等。

这些东西组合在一起，就构成了所谓的 Harness。

时间	事件	意义
2022-2024	Prompt Engineering 主导	跟 AI 对话靠话术
2025	Anthropic 提出 Context Engineering	从说话升级到管理上下文
2025 下半年	CLAUDE.md / AGENTS.md 成为标配	Harness 的雏形出现
2026 年初	OpenAI Codex 用 0 行手写代码构建百万行产品	Harness 实战验证
2026.02	OpenAI 正式提出 Harness Engineering 概念	成为独立学科

2026 年是 Harness Engineering 之年。社区讨论很热烈，LangChain、Martin Fowler 都写了专题分析。

那 Harness Engineering 的原理到底是什么？

Part 3：它是怎么运作的

Harness主要靠六大组件协同工作。

先看一张架构图，来自 LangChain 的官方博客，我觉得这张图把 Harness 的核心模型说透了：

Agent Harness 架构：中央是 Model（负责推理和决策），外围是 5 大模块协同运转

Model负责推理和决策。

Context Injection（上下文注入）。决定模型此刻能看到什么，包括 prompt、记忆、技能描述、对话历史。

这块的核心技术叫"渐进式披露"，模型不需要同时看到所有信息，用到哪层加载哪层。CLAUDE.md 是第一层（全局指令），SKILL.md 是第二层（特定技能的说明），具体的参考文件是第三层（按需加载）。

上下文窗口预算管理是关键技术。

建议保持上下文窗口利用率低于 60%。超过这个阈值模型就开始遗忘前面的信息。

Boris Cherny 提出了一个叫"context firewall"的模式：用 sub-agent 做信息隔离。

主 Agent 不直接处理所有搜索结果，让 sub-agent 先处理完，只把结论传回来。

先压缩再加载。

Control（控制层）：管理执行节奏。

上下文太长时自动压缩（Compaction），多步骤任务编排执行顺序（Orchestration），碰到低质量输出时触发重试循环（Ralph Loops）。

Philipp Schmid（Google DeepMind 的 AI Developer Relations）有一句话我觉得很精准：

“The Harness is the Dataset. Competitive advantage is now the trajectories your harness captures.”

你的 Harness 积累的执行轨迹，才是真正的护城河。

Action（动作层）——模型做决策后，真正执行的地方。

调用 bash 命令、操作文件系统、通过 MCP 协议调用外部工具。

MCP（Model Context Protocol）是 Anthropic 推出的一个开放协议，让 Agent 能以标准化的方式接入各种外部工具。

Observe & Verify（观测与验证）——执行完了不等于做对了。

这一层负责检查：浏览器截图对比、测试结果验证、日志分析。

Harness Engineering 里有一个核心模式叫"验证循环"（Verification Loop）：写代码 → 审查 → 修改 → 再审查，直到质量达标。

Persist（持久化）——把学到的东西存下来。

文件系统、Git 提交、进度文件。这一层确保 Agent 的经验不会随着会话结束而丢失。

再看一张流程图，这张展示了 Harness 和 Model 之间的共同进化循环：

Discover Primitive → Add to Harness → Train Next Model → Model Improves——一个正反馈循环

当你发现了Agent 犯错了（Discover Primitive），把这个约束写进 Harness（Add to Harness），模型在 Harness 的约束下表现变好（Train Next Model），模型能力提升后你又能发现更高层次的问题（Model Improves）。

你的 Agent 会进入一个良好的进化飞轮。

原理搞明白了，那它到底能帮我搞定哪些事？

Part 4：它能解决什么问题

我查了一圈实际案例和用户反馈，Harness Engineering 主要解决四类痛点。

解决问题一：Agent 写着写着就忘事了

让 Agent 处理长任务的时候经常会出现这个问题。

比如让 Agent写一篇 4000 字的深度解析文章，中间搜索资料进行了7 轮、抓了 5 篇长文，这时候几万字涌入上下文。

结果Agent 到后面连你前面定的格式要求都忘了。

我还翻到一个很典型的例子：有开发者在 Reddit 上说，他用 Claude Code 写项目，到第 20 轮对话时，AI 把之前写好的测试全给删了重写，因为它忘了之前已经通过测试这件事。

Harness 的解法是渐进式披露和上下文压缩。只保留跟当前任务相关的信息，多余的全压缩或存文件。

解决问题二：Agent 跳过关键步骤

你让 Agent 按流程走 10 步，它到了第 6 步觉得差不多了，直接跳到结尾。

这在小上下文的时候不太明显，但任务一复杂、信息一多，Agent 就开始急了。

DeepMind 的分析报告里把这归类为"premature termination"——过早终止。

Harness 的解法是强制检查点（checkpoint）。每完成一步，必须输出一个确认信号，才能进入下一步。

解决问题三：输出质量不稳定

同一个任务，跑三次，三次结果差异巨大。今天写的代码优雅简洁，明天写的就一团糟。

这是因为没有验收环节。

Harness 的解法是验证循环。写完 → 自动审查 → 修改 → 再审查，最多跑 N 轮，带收敛检测（连续两轮没提升就停）。

解决问题四：多 Agent 协作混乱

当你有多个 Agent 同时工作（一个负责搜索、一个负责写作、一个负责审稿），它们之间的信息传递和任务编排很容易出问题。

Harness 的解法是 Orchestration 层。用 subagent 做信息隔离，用 context firewall 防止上下文污染。

Boris Cherny 的建议是：每个 subagent 只负责一件事，干完把结论传回来，不把中间过程塞进主上下文。

Part 5：市面上有哪些选择

Harness Engineering 目前还没有一个标准工具。目前还是一套设计理念和最佳实践，不同平台有不同的实现方式。我整理了目前主流的几个：

项目/平台	核心特色	适用场景	推荐指数
Claude Code (CLAUDE.md)	Anthropic 官方，SOP + Skills + Hooks 体系，渐进式披露	个人开发者 / 小团队	⭐⭐⭐⭐⭐
OpenAI Codex	Agent-first 设计，Harness 内置于产品中	企业级团队	⭐⭐⭐⭐
Cursor Rules	IDE 深度集成，轻量级配置	个人开发者快速上手	⭐⭐⭐
Cline	VS Code 生态，开源	前端开发者	⭐⭐⭐
Claude Agent SDK	自定义 Agent 开发框架，可编程编排	工程化团队	⭐⭐⭐⭐

目前这个领域还处于早期。没有哪个平台是银弹。

我的建议是：如果你已经在用 Claude Code，直接把你的 CLAUDE.md 写好、SOP 定义清楚，就能覆盖 80% 的 Harness Engineering 实践。

工具不是重点，设计 Harness 的思维方式才是。

Part 6：上手路径

想马上动手的话我建议从 Claude Code 的 CLAUDE.md 开始。

第一步：写一个 CLAUDE.md

不用搞多复杂。把你的项目结构、编码规范、常见坑点写进去就行。这就是你 Harness 的第一层。

第二步：定义 SOP

看看你的工作流有哪些步骤是固定不变的。把每个步骤写清楚：输入是什么、输出是什么、怎么验证。

第三步：加验证循环

在你的 SOP 里加入"写完必须审查"的环节。不用多复杂，一个简单的 checklist 就行：关键论点有没有证据支撑？数据有没有来源？格式对不对？

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要《AI大模型入门+进阶学习资源包》，下方扫码获取~

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。