AI辅助开发架构框架：从问题类别到系统退役的严谨工程实践-深圳市維司達科技有限公司

1. 项目概述：一个为AI辅助开发而生的架构框架

如果你是一位技术架构师、产品设计师，或者是一位需要管理AI辅助开发项目的技术负责人，你大概率遇到过这样的困境：让AI写代码，它确实能给你一个能跑起来的原型，但当你试图把这个原型变成一个可维护、可扩展、未来能放心交给别人接手的系统时，问题就来了。代码结构混乱、接口定义模糊、设计决策无迹可寻、文档缺失……这些问题在AI生成代码的“魔法”褪去后，会迅速暴露出来，让项目陷入“能跑，但没人敢动”的尴尬境地。

这正是ai-orchestrator-framework这个项目试图解决的核心痛点。它不是一个具体的代码库或SDK，而是一个面向架构师和设计师的框架，用于指导和管理整个AI辅助开发的软件生命周期。它的核心理念非常明确：在写第一行代码之前，先定义清楚你要解决的“问题类别”。这个框架认为，为一个明确定义的“问题类别”构建的系统，其结构性、可验证性和可维护性，远高于为一个具体“问题实例”拼凑出的解决方案。简单来说，它试图将AI辅助开发从“快速试错”的游击队模式，升级为“谋定后动”的正规军模式。

这个框架尤其适合两类人：一是非编码背景的架构师和设计师，他们需要一种结构化的语言来精确指挥AI工作；二是希望为AI辅助工作，特别是涉及LLM运行时决策的系统，引入更强设计纪律的工程师。它回答的关键问题包括：如何精确到足以让AI安全构建的规格说明？如何在不阅读源码的情况下验证AI的产出？如何防止在漫长的开发周期中出现架构漂移？以及，如何管理那些会产生非确定性输出的AI系统组件？

2. 核心设计哲学：从“问题类别”出发的严谨性

ai-orchestrator-framework的基石是几个看似简单但执行起来极具挑战的设计原则。理解这些原则，是理解整个框架价值的关键。

2.1 问题类别优先于实现

这是框架的第一性原理。传统开发，甚至很多所谓的“AI驱动开发”，往往从一个具体的用户故事或功能需求开始。比如，“开发一个能总结PDF文档的聊天机器人”。这个需求很具体，AI也能很快给你一个可交互的Demo。但问题在于，这个需求定义了一个“实例”，而非一个“类别”。

框架要求你在Gate 0（概念验证门）就必须停下来，回答：“我们到底在解决哪一类问题？” 对于上面的例子，一个更好的“问题类别”定义可能是：“一个能够处理多种格式（PDF, DOCX, TXT）的文档，并基于用户查询，提取关键信息、生成摘要或回答特定问题的自动化助手系统。” 同时，你必须明确它的边界：它处理中文和英文吗？文档最大支持多少页？它不处理哪些类型的文档（比如扫描的图片PDF）？以及，如何判定这个系统是成功的？这个“成功谓词”可能是一个复合逻辑条件，例如：“对于90%的合格输入文档，系统能在5秒内返回一个被人类评审员判定为‘相关且准确’的响应。”

为什么这如此重要？因为一旦“问题类别”和“成功谓词”被清晰定义并批准，后续所有的设计、实现、测试决策都有了唯一的评判标准。任何新功能、代码修改，都可以被问一个致命的问题：“这个改动是为了更好地服务我们已定义的‘问题类别’，还是在偷偷扩大或改变这个类别？” 前者是优化，后者是架构漂移的起点。这个原则强制团队在最具杠杆效应的早期阶段完成最艰难的思考，将模糊的需求转化为可验证的设计合约。

2.2 门控作为检查点，而非形式主义

框架将开发流程划分为7个阶段，每个阶段结束时都设有一道“门”。这听起来像传统的瀑布模型阶段评审，但本质完全不同。传统的门评审很容易沦为走过场的会议，大家拿着厚厚的文档，却讨论不出实质风险。

在这个框架里，每一道“门”都关联着一系列具体的、必须被书面回答的问题。这些问题不是为了难为人，而是为了在代价最低的时候，将隐藏的假设暴露出来。例如，在Gate 2（设计与上下文门），你需要回答：“哪些数据会流入LLM调用？是否存在合规性、隐私性或地域性限制？” 对于涉及用户隐私数据的系统，这个问题必须在设计定型前被严肃对待并记录在“数据边界声明”中，而不是在代码写完后才突然发现合规风险。

这些门充当了强制性的暂停点，确保关键的设计合约（如类接口合约、提示词合约）在实现开始前就已锁定。它把“我们以后再来补文档”这种大概率不会发生的幻想，变成了“不过此门，勿动代码”的硬性约束。

2.3 所有权是一项设计需求

这是最具长期眼光的 principle。很多项目只关心“构建成本”，而严重低估了“拥有成本”——即系统上线后所需的维护、调试、升级和最终退役的成本。这个框架要求在每个阶段都考虑所有权成本。

在设计阶段，你就要思考：这个架构是否便于监控？日志是否足以重建一次AI决策？组件耦合度是否过高，导致局部修改影响全局？在部署阶段，你需要确认运维手册、应急预案是否就位。最体现这一原则的是Gate 7（退役门），它明确要求为系统的终结做计划：数据如何迁移或销毁？服务如何平滑下线？依赖方如何通知？将“退役”纳入生命周期设计，迫使团队从一开始就构建模块化、解耦的系统，因为你知道总有一天要拆掉它。对于“运行时AI”系统，这一点更为关键，因为LLM模型的迭代、API成本的不可预测性，都使得长期拥有成本成为一个核心的设计约束。

3. 关键概念深度解析：构建共同语言

要运用这个框架，必须准确理解其定义的一套术语。这些术语是团队成员之间，以及人与AI之间进行精准沟通的基础。

问题类别：这是框架的锚点。一个良好的问题类别定义应包括：1)包含标准：明确描述系统旨在处理哪些情况。2)排除标准：更重要的，明确声明哪些情况不在处理范围内。3)边界条件：在包含与排除之间的灰色地带，给出明确的判定规则。例如，一个“智能客服路由系统”的问题类别，需要定义什么样的用户query属于“业务咨询”、“故障申报”或“闲聊”，并且明确声明不处理涉及敏感信息查询或非支持语言的情况。

成功谓词：这是衡量系统是否“正确工作”的客观标准。它必须是一个可评估的逻辑表达式，通常由多个指标复合而成。例如：“平均响应时间 < 2秒且用户满意度评分 > 4.0/5.0且自动解决率 > 70%”。如果成功谓词无法被量化评估，那么问题类别的定义就是不完整的。

类接口合约：这是系统与外界交互的“宪法”。它严格定义了输入数据的模式（Schema）和输出数据的模式。对于传统软件，这类似于API的Request/Response Schema。对于运行时AI系统，这必须扩展包含提示词合约——即每次调用LLM时，输入的提示词模板、提供的上下文结构、以及期望的输出格式（如JSON Schema）。提示词合约需要像API合约一样进行版本控制。

数据边界声明：这是运行时AI系统的“安全护栏”。它是一份文档，清晰列出所有会流入LLM的数据字段，并逐一标注其数据分类（公开、内部、机密、受限）、隐私合规要求（如GDPR、PII）、以及地理 residency 限制。任何未被声明允许的数据，都绝不允许在提示词或上下文中出现。这是在设计层面预防数据泄露风险的关键动作。

人类监督模型：针对运行时AI系统能执行的每一个动作，都需要预先定义其监督级别。框架通常分为三级：1)自主：AI可独立执行，无需实时人工批准（适用于低风险、高确定性任务）。2)监督：AI可建议行动，但必须由人工确认后才能执行。3)顾问：AI仅提供信息和分析，由人类做出全部决策。监督级别的划分依据主要是爆炸半径（失败的影响范围）和行动的可逆性。

架构决策记录：这是记录设计决策上下文的最佳实践。ADR不是事后的总结，而是在做出关键决策的当下立即记录的简短文档，需包含：决策内容、决策背景、考虑过的备选方案及其优缺点、以及决策带来的后果。ADR构成了项目的“设计记忆”，防止日后出现“我们当时为什么这么选？”的集体失忆，对于人员更替频繁的团队尤其宝贵。

4. 七阶段流程详解：从概念到退役的完整旅程

框架将项目生命周期划分为七个阶段，每个阶段以一道“门”作为结束和下一阶段的开始。下面我们逐一拆解每个阶段的核心任务和出口标准。

4.1 阶段一：规划与概念验证

这个阶段的目标是回答一个根本性问题：“这个问题类别值得构建一个系统来解决吗？” 一切始于Gate 0。

核心活动：

起草问题类别定义：与利益相关者一起，用清晰、无歧义的语言描述系统要处理的“一类问题”，并明确排除范围。
定义成功谓词：制定可量化的、客观的成功标准。避免使用“用户体验更好”这类模糊表述。
声明AI部署模式：明确本项目是“构建时AI”（AI辅助写代码）、“运行时AI”（LLM在生产环境运行），还是两者混合。这个声明将决定后续哪些门控标准生效。
初步评估爆炸半径：粗略评估如果系统完全失败，对业务、用户、财务的影响有多大。

Gate 0 出口标准：一份被关键决策者批准的文档，其中包含上述三要素（问题类别、成功谓词、AI模式）。没有这份文档，项目不应进入可行性研究阶段。实操心得：在这个阶段，极力避免讨论技术实现细节。要坚持问“是什么”和“为什么”，而不是“怎么做”。经常出现的陷阱是，有人会跳出来说“我们可以用LangChain来做这个”，这时你需要把他拉回来：“很好，但首先我们要确定‘这个’到底是什么。”

4.2 阶段二：可行性与上下文探索

在确认问题值得解决后，本阶段要回答：“在给定的约束和风险下，解决这个问题是否可行？”

核心活动：

深入映射约束：包括技术约束（现有基础设施、性能要求）、合规约束（数据隐私法规）、商业约束（预算、时间线）和运营约束（团队技能、运维能力）。
识别关键风险：特别是对于运行时AI系统，需识别模型幻觉风险、数据安全风险、成本失控风险、供应商锁定风险等。
完成数据边界声明：如果涉及运行时AI，必须在此阶段完成。与法务或合规团队协作，明确所有数据的“出入境”管理。
制定初步的成本模型：尤其是LLM API调用成本估算，需基于预期的请求量和复杂度进行建模。

Gate 1 出口标准：一份可行性分析报告，明确指出项目的主要风险、约束条件，并给出“继续/停止”的建议。报告应附上数据边界声明和初步成本模型。注意事项：这个阶段常常会发现，最初的问题类别定义过于宽泛或存在不可逾越的合规障碍。此时返回Gate 0修改定义，远比硬着头皮进入设计阶段要明智得多。

4.3 阶段三：设计与架构

这是将抽象概念转化为具体蓝图的关键阶段。核心问题是：“拥有这个系统，长期来看成本是多少？”

核心活动：

制定类接口合约：详细定义系统所有对外的输入输出数据格式。对于运行时AI，这包括为每一个LLM调用编写提示词合约（模板、上下文变量、输出格式）。
定义人类监督模型：为系统每一个能改变状态或影响外界的动作，分配监督级别（自主/监督/顾问）。
设计可观测性方案：确保系统状态，特别是AI的决策路径，可以被完整地追踪和重建。设计日志结构、监控指标和告警策略。
创建运维手册草案：包括部署流程、扩缩容策略、备份恢复方案等。
编写首批ADR：记录关键的技术选型、架构模式决策。

Gate 2 出口标准：一套完整的设计工件，包括但不限于：类接口合约、提示词合约（如适用）、系统架构图、数据流图、人类监督模型矩阵、可观测性设计文档、以及初步的运维手册。实操心得：在设计提示词合约时，不要只写一个静态模板。要将其设计为可版本化、可测试的“代码”。例如，使用变量占位符，并明确规定每个变量的来源和清洗规则。

4.4 阶段四：实现与任务级门控

进入编码阶段。本阶段的原则是：“每一个任务级的改动，都必须服务于已定义的问题类别，而不是扩展它。”

核心活动：

任务分解：将设计拆分为具体的开发任务。
应用任务级门控：框架要求，任何涉及以下内容的代码修改，在合并前都必须通过一个轻量级的“任务级门控”检查：
- 数据模式或类接口合约的变更
- 公共API的变更
- 认证/授权逻辑的变更
- 外部依赖的引入或升级
- 任何LLM调用的新增或修改
- 向现有LLM调用引入新的数据
持续集成：将合约（如OpenAPI Spec, JSON Schema）的验证纳入CI流程，确保代码实现符合设计。

Gate 3 出口标准：对于整个阶段，没有统一的“门”。取而代之的是贯穿始终的“任务级门控”。每个符合上述条件的Pull Request，都需要附带一份简短的说明，解释该改动如何符合既定的问题类别和设计合约，并由另一位工程师或设计师进行评审。常见问题：开发人员常常觉得这个门控繁琐。关键在于将其自动化。例如，可以在Git仓库的.cursor/rules/目录下配置规则（框架已提供模板），让AI助手在编写代码时就提醒开发者遵守合约，或者在PR描述中自动生成检查清单。

4.5 阶段五：测试与技术验证

本阶段要回答：“系统是否满足了阶段三定义的所有合约？”

核心活动：

合约测试：针对类接口合约和每一个提示词合约，编写自动化测试，验证系统在各种有效和无效输入下的行为是否符合约定。
行为评估：对于运行时AI系统，传统的单元测试不够。需要设计行为评估：使用一组覆盖问题类别边界的测试用例（黄金数据集），评估AI输出的质量、一致性和安全性。评估标准应直接关联到“成功谓词”。
集成与端到端测试：验证整个工作流。
非功能性测试：性能、负载、安全性和成本测试（模拟LLM调用开销）。

Gate 4 出口标准：完整的测试报告，证明：1) 所有合约测试通过；2) 行为评估结果达到预定阈值；3) 非功能性指标符合要求。注意事项：对于非确定性AI输出，行为评估不能追求100%的确定性匹配。应评估其在一个测试集上的统计性能（如准确率、F1分数）以及“灾难性失败”的案例（如输出有害内容）。

4.6 阶段六：部署与运营就绪

系统准备上线。核心问题是：“激活这个系统是否安全？”

核心活动：

最终运营就绪性评审：检查监控告警是否就绪、运维团队是否完成培训、应急预案是否经过演练。
部署自动化与回滚方案：确保部署过程可重复、可回滚。
成本熔断机制上线：对于运行时AI系统，必须配置硬性的API花费限额和自动告警，防止因程序错误或恶意攻击导致成本失控。
发布沟通：通知所有依赖方和用户。

Gate 5 出口标准：由运维、安全、业务负责人共同签署的运营就绪批准书。同时，所有自动化部署脚本、监控仪表板、成本熔断规则必须就位并可验证。实操心得：首次部署运行时AI系统时，强烈建议采用“暗启动”或“影子模式”：让系统处理真实流量，但不将输出实际作用于用户或业务，只是记录和评估。这可以在真实场景下验证系统行为，而无需承担故障风险。

4.7 阶段七：维护与退役验证

系统进入维护模式，并最终走向退役。本阶段包含两个关键检查点。

核心活动（持续维护）：

实施活文档协议：定义哪些事件（如LLM供应商API重大变更、安全事故、关键指标阈值突破）会触发对设计文档（如问题类别、合约）的重新评审和更新。
定期进行Gate 7审计：按季度或半年，重新评估“成功谓词”是否为真。分析运营数据，判断系统是否仍在有效解决其定义的问题类别，还是已经发生了“类别漂移”。

核心活动（退役）：

触发退役门：当系统不再需要，或将被新系统替代时。
执行退役计划：按照在设计阶段就起草好的退役计划，有序地进行数据迁移/销毁、服务下线、依赖方通知、资源清理等工作。
最终验证：确认所有数据已妥善处理，所有外部依赖已解除，没有留下任何“僵尸”资源或隐藏成本。

Gate 6/7 出口标准：对于定期审计，输出一份报告，说明系统是否健康，或提出变更/退役建议。对于最终退役，输出一份退役完成确认书。个人体会：大多数团队会忽略阶段七，但恰恰是这个阶段保证了框架的闭环。它迫使你面对系统的整个生命周期，而不仅仅是“上线”这个高光时刻。定期审计能提前发现“类别漂移”，比如用户开始把系统用于一个它从未被设计处理的场景，而这往往是系统变得脆弱和难以维护的开始。

5. 构建时AI vs. 运行时AI：截然不同的设计考量

框架严格区分这两种模式，因为它们的风险面和设计重点差异巨大。混淆二者是许多AI项目失败的根源。

构建时AI：AI仅作为开发助手，用于生成代码、测试用例、文档等。生产环境中没有LLM在运行。

核心关注点：生成代码的质量、可维护性、对设计合约的遵循度。你需要验证AI写的代码是否正确实现了设计，并且其结构是否良好。
框架应用：你可以放宽对“数据边界”、“人类监督模型”、“成本熔断”等运行时要求，但必须严格执行“问题类别定义”、“类接口合约”和“任务级门控”。因为AI生成的代码同样需要满足系统的结构性要求。
工具集成：框架提供的.cursor/rules/目录下的规则文件，就是专门用于在Cursor等AI编码助手中嵌入这些设计约束，让AI在编写代码时就遵循既定架构。

运行时AI：LLM作为核心组件在生产环境中处理请求、做出决策或生成内容。

核心关注点：在构建时AI的所有关注点之上，额外增加了一系列严峻的挑战。下表概括了这些额外需求及其背后的原因：

设计考量	原因与实操解读
提示词合约	提示词是系统中最易变、最不稳定的“接口”。必须像管理API Schema一样对其进行版本控制、变更管理和测试。一个未经审查的提示词修改可能导致系统行为剧变。
数据边界声明	法律和合规红线。一旦用户隐私数据或公司机密通过提示词泄露给LLM供应商，将造成不可逆的损失。必须在设计时白名单化允许流入的数据。
人类监督模型	责任与控制。并非所有AI决策都可以放任自流。根据行动的“爆炸半径”（如“发送邮件”比“高亮文本”半径大）和可逆性，定义人工介入的级别。
运营成本模型	财务可持续性。LLM API调用是按token计费的，成本可能随流量指数级增长。成本模型是可行性的一部分，成本熔断是部署的必备条件。
供应商可靠性及降级	运维现实。主流LLM API也可能宕机或降级。设计上必须考虑故障转移方案，例如降级到更稳定的模型，或切换到基于规则的备用流程。
行为评估	应对非确定性。传统的通过/失败测试不适用。需要一套针对问题类别的评估体系，用统计方法衡量其输出质量、安全性和一致性。
LLM可观测性	调试与追责。当AI做出一个错误决策时，你必须能从日志中完整复现当时的输入（提示词、上下文）、模型参数和输出。这需要精心设计日志结构。
模型版本漂移	隐蔽的类别漂移。即使你的代码不变，LLM供应商在后端更新模型版本，也可能导致系统行为变化。需要监控关键指标，并建立模型版本锁定和更新评估流程。
成本熔断器	财务安全网。必须实现硬性限额，当API花费超过每日/每周预算时，自动停止服务并告警，防止一次代码bug或恶意攻击导致巨额账单。

实操中的关键点：在Gate 0声明AI部署模式时，就必须想清楚。如果一个系统开始是构建时AI，后期要加入运行时AI组件，这必须被视为一个重大的架构变更，很可能需要回溯并重新通过Gate 1和Gate 2，补充所有运行时AI所需的设计工件。

6. 框架的工程化实践：从理论到工具

理解了理念和流程，下一步是如何在真实项目中落地。ai-orchestrator-framework项目本身提供了一套初步的工程化支持，让框架不只是文档。

6.1 仓库结构与模板应用

项目的仓库结构本身就是一份最佳实践指南：

templates/目录提供了从Gate 0到Gate 5的门控文档模板，以及ADR、提示词合约的模板。强烈建议在项目启动时，就将这些模板复制到你的项目仓库中，并基于它们开始工作。这能保证思考的完整性。
examples/目录下的示例项目（如文档分类智能体）是极好的学习资料。通过阅读一个完整项目如何填写这些模板、如何做出决策，你能更直观地理解框架的运用。
.cursor/rules/目录是框架的“魔法”所在。它将门控检查的部分逻辑，前置到了编码环节。例如，task-gate.mdc规则可以在你修改关键文件时，提醒你该变更是否需要经过任务级门控评审。

如何开始一个新项目：

克隆或 forkai-orchestrator-framework仓库。
将templates/下的所有模板文件复制到你的新项目根目录。
从填写gate-0-concept.md开始，召集利益相关者，严肃地讨论并定义你的“问题类别”、“成功谓词”和“AI部署模式”。
将填写好的文档放入项目文档目录（如docs/gates/），并确保它们被纳入版本控制。
根据你选择的AI部署模式，在项目中建立对应的合约目录（如contracts/api/,contracts/prompts/）。

6.2 与开发工具集成：以Cursor为例

框架深度集成了Cursor IDE，这是提升效率的关键。通过在项目根目录的.cursor/rules/下放置规则文件，你可以让AI助手在编写代码时，就遵循框架的约束。

contracts.mdc：当你在编辑或创建API接口定义、数据模型或提示词模板时，Cursor会根据此规则提醒你检查是否已存在相应的合约定义，并鼓励你保持一致性。
runtime-ai.mdc：当你在代码中编写LLM调用时，此规则会触发一系列检查清单提问，例如：“你是否更新了数据边界声明？”、“这个调用的输出格式是否已在提示词合约中定义？”、“这个动作的人类监督级别是什么？”
adr.mdc：当你进行一个重要的代码重构或引入新库时，它会提示你：“这个变更是否值得记录为一个ADR？”并引导你快速创建ADR文档。

个人体会：这种集成不是限制开发者的创造力，而是将框架的纪律性“编织”进开发工作流中，成为一种自然而然的习惯。它把事后昂贵的审查成本，分散到了事中一个个微小的、可执行的提醒中。

6.3 根据风险调整严格度

框架不是僵化的教条。它提供了“按风险缩放严格度”的灵活性。在appendix/rigor-by-risk.md中，框架建议根据任务的“爆炸半径”和失败概率来调整流程的正式程度。

低风险任务（如修改内部工具的一个UI颜色）：可能只需要口头同步和简单的代码审查。
中风险任务（如添加一个新的API端点）：需要经过任务级门控，更新相关接口合约，并进行同行评审。
高风险任务（如修改核心数据模型、引入新的LLM调用）：必须触发完整的门控检查，可能需要重新审视部分设计文档，并进行更广泛的设计评审和测试。

这种灵活性确保了框架既能管理大型、复杂、高风险的系统，又不会对小型、低风险的改进造成不必要的负担。

7. 常见挑战与应对策略

在实际推行这个框架时，你会遇到一些典型的阻力与挑战。以下是一些实战中总结的应对策略。

挑战一：“这太慢了，耽误我们快速迭代。”

应对：首先承认，在项目初期，框架确实会“拖慢”进度。但这是一种投资。它用早期的、低成本的设计时间，置换掉了后期高昂的返工、调试和重构时间。可以向团队展示一个因缺乏前期设计而导致“屎山”代码、无人敢动的反面案例。其次，强调“按风险缩放”原则，对小修小补采用轻量流程。

挑战二：“我们需求变得快，问题类别定义好了也没用。”

应对：这正是框架的价值所在。当需求变化时，不要直接去改代码。首先问：“这个新需求，是在我们原有‘问题类别’之内，还是之外？” 如果在之内，那么实现它只是优化，架构是稳固的。如果在之外，那么这是一个重要的信号：要么拒绝这个需求，要么正式地返回Gate 0或Gate 1，重新评估和修订“问题类别”定义。这避免了架构在不知不觉中漂移到无法维护的境地。

挑战三：“为AI行为写合约和测试太困难了，输出是不确定的。”

应对：这正是需要“行为评估”而非传统“单元测试”的原因。接受不确定性，但用统计学方法管理它。建立一套评估流水线：1)黄金数据集：覆盖问题类别边界和典型场景的输入输出对。2)评估函数：自动化评分（如基于规则的关键词匹配、语义相似度）。3)评分阈值：设定可接受的通过率（如95%）。每次代码或提示词更新，都运行评估流水线，看分数是否下降。这为“非确定性”系统提供了确定性的质量护栏。

挑战四：“设计师和非技术人员看不懂技术合约。”

应对：类接口合约和提示词合约必须用非技术人员也能理解的方式进行描述。除了正式的Schema（如JSON Schema），一定要附上清晰的文字说明、示例和“用户故事”。鼓励设计师直接参与审阅这些合约，确保技术实现与用户体验意图对齐。ADR也应该用平实的语言书写，记录商业背景和权衡，而不仅仅是技术细节。

挑战五：如何管理框架本身的复杂性？

应对：不要试图在第一个项目就完美应用所有环节。建议采用“分步采用”策略：
1. 从Gate 0开始：强制所有新项目必须定义“问题类别”和“成功谓词”。仅此一项就能带来巨大 clarity。
2. 引入ADR：在下一个项目，开始要求对重大决策记录ADR。这能积累宝贵的组织知识。
3. 推行合约测试：在第三个项目，对核心接口推行合约测试。
4. 最后处理运行时AI：当团队熟悉基础后，再在涉及LLM的项目中引入“提示词合约”、“数据边界声明”等高级概念。

这个框架提供的不仅是一套流程，更是一种在AI时代构建可靠软件的思维方式。它承认AI的强大，但也清醒地认识到其引入的新的复杂性。通过将“定义问题类别”置于“编写解决方案”之前，通过将“设计合约”和“门控检查”作为不可逾越的纪律，它为AI辅助开发带来了亟需的严谨性和可长期维护性。开始实践时可能会感到束缚，但当你看到项目在数月后依然清晰、可控，新成员能够快速接手，你会体会到这种结构化设计带来的长期自由。