提示词工程进阶：Chain-of-Thought（CoT）在复杂任务中的应用-深圳市維司達科技有限公司

在使用 DeepSeek 处理复杂逻辑问题时，你是否发现：如果直接问答案是多少？，它往往会一本正经地胡说八道；但如果你多加一句请一步步思考，它就像突然打通了任督二脉，给出了完美的推导过程。

这就是Chain-of-Thought (CoT，思维链)的魔力。它不仅仅是一个提示词技巧，更是大模型涌现出的推理能力的核心体现。它将大模型的System 1（直觉快思考）强行切换到了System 2（逻辑慢思考）模式。

1. CoT 的本质：用算力换逻辑

大模型（LLM）本质上是一个基于概率的Next Token Prediction机器。在生成下一个字时，它严重依赖于前面的上下文（Context）。

直接回答 (Direct Prompting)
上下文只有问题。模型必须从问题直接跳跃到答案。对于复杂问题（如数学证明、代码调试），这种单步跳跃的难度极大，模型很容易在中间环节“脑补”出错误的中间状态，导致幻觉。
CoT 回答
上下文包含了问题 + 推理步骤1 + 推理步骤2…。模型在生成最终答案时，实际上是在利用前面自己生成的推理步骤作为跳板。每一个推理步骤都大大降低了生成下一步的熵（不确定性）。

简单来说，CoT 强迫模型把默算变成了打草稿。虽然消耗了更多的 Token（即更多的算力和时间），但换来了逻辑的严密性。这是一种典型的Time-for-Accuracy（时间换精度）策略。

2. Zero-Shot CoT：一句咒语的魔法

最著名的 CoT 技巧莫过于那句神谕：

Let’s think step by step.（让我们一步步思考。）

仅需在 Prompt 末尾加上这句话，DeepSeek-67B 在 GSM8K（小学数学数据集）上的准确率就能瞬间提升几十个百分点。

这种方法被称为Zero-Shot CoT。它不需要你提供任何示例，模型会自动激活其内部的逻辑推理回路，开始分解问题。

案例对比

普通 Prompt：
问：约翰有5个苹果，吃了2个，买回3个，分给朋友一半。他还剩几个？
答：3个。（错误，直接瞎猜）
Zero-Shot CoT：
问：约翰有5个苹果，吃了2个，买回3个，分给朋友一半。他还剩几个？让我们一步步思考。
答：
1. 起始有 5 个苹果。
2. 吃了 2 个，5 - 2 = 3 个。
3. 买回 3 个，3 + 3 = 6 个。
4. 分给朋友一半，6 / 2 = 3 个。
5. 他还剩 3 个。
  答案是 3。（正确）

3. Few-Shot CoT：照猫画虎的艺术

对于格式要求严格或逻辑非常特定的任务（如金融报表分析、法律合规审查），Zero-Shot 可能不够稳定。此时，Few-Shot CoT（提供带推理过程的示例）是更优的选择。

通过展示如何拆解问题，你实际上是在给模型In-Context Learning（上下文编程）。

Prompt 模板示例

问题：杂货店卖苹果，每个1元。买5送1。我想买20个苹果，需要多少钱？ 答案：让我们一步步思考。 1. 买5送1，相当于6个苹果是一组。 2. 20除以6，等于3组，余2个。 3. 每组买5个，花费5元。3组花费 3 * 5 = 15 元。 4. 剩下的2个，每个1元，花费2元。 5. 总花费 15 + 2 = 17 元。 答案是17元。 问题：服务器租用费每小时0.5元。买100小时送20小时。由于项目延期，我总共租用了500小时，需要付多少钱？ 答案：

模型会模仿上面的推理风格，输出：

让我们一步步思考。
买100送20，相当于120小时是一组。
500除以120，等于4组，余20小时。
…

4. 进阶玩法：ReAct 与 ToT

ReAct (Reason + Act)
对于需要调用外部工具（如计算器、搜索引擎、数据库）的任务，单纯的 CoT 是不够的。ReAct 框架引入了Action步骤。

Thought: 用户想知道 DeepSeek 的股价。我不知道实时数据。
Action: Search(“DeepSeek stock price”)
Observation: $25.5
Thought: 现在我知道价格了。
Answer: DeepSeek 当前股价为 $25.5。

ToT (Tree of Thoughts)
人类在思考复杂问题时，往往会进行多路径探索（如果选A会怎样？如果选B会怎样？）。ToT 让模型生成多个可能的推理分支，并自我评估每个分支的可行性，通过广度优先搜索（BFS）或深度优先搜索（DFS）找到最优解。

5. 性能与成本的博弈

引入 CoT 并非没有代价。

延迟 (Latency)
如我们在2.10 压力测试实战中所分析的，CoT 显著增加了输出的 Token 数量。对于 DeepSeek 这样的自回归模型，生成 100 个 Token 的推理步骤可能需要几秒钟。这会直接拉高TP99 延迟。

吞吐量 (Throughput)
由于 Context 变长，KV Cache 的显存占用也会增加，可能导致 Batch Size 减小，进而降低系统的整体 TPS（Tokens Per Second）。

决策建议

高并发/低延迟场景（如即时聊天）：慎用复杂 CoT，或者使用蒸馏（Distillation）技术，用 CoT 生成的数据去微调一个小模型，让小模型直接输出答案（把思维过程内化）。
高准确率/离线场景（如报表生成、代码审计）：必须使用 CoT，甚至 ToT。此时准确率是第一指标，延迟可以忍受。