1. 大型语言模型推理标记的本质解析
在当今人工智能领域,大型语言模型(LLM)的推理能力已成为研究热点。当我们观察这些模型解决复杂问题的过程时,常会看到它们生成一系列看似"思考步骤"的中间文本,如"首先...然后...因此..."等。这些被统称为"推理标记"(reasoning tokens)的文本序列,表面上看像是模型在展示其思考过程,但最新研究表明,这种直观理解可能完全偏离了它们的真实功能。
1.1 推理标记的双重身份
推理标记实际上扮演着两种截然不同的角色:
- 对人类读者:它们呈现为可读的自然语言文本,似乎描述了模型的"思考"过程
- 对模型自身:它们作为计算状态(state)的载体,在模型的无状态生成周期之间传递必要信息
这种双重身份导致了一个根本性的认知偏差:我们倾向于将推理标记解读为解释性文本,而实际上它们的主要功能是作为计算过程的"脚手架"。
关键区别:推理标记(reasoning tokens)与推理文本(reasoning text)是同一事物的两种解读方式。前者指模型生成的原始符号序列,后者指人类对这些符号按自然语言语义进行的解释。
1.2 白板类比:理解状态传递机制
想象你被关在一个房间里,面前有一块白板写着问题。每10秒钟你的记忆会被完全重置,唯一能做的就是读取白板当前内容并添加一个词。要解决这个问题,你会:
- 在白板上记录中间结果(数字、结论或部分计算)
- 可能使用编码方案(缩写、符号甚至看似无意义的标记)
- 不会记录所有内部计算步骤,只保留对下一步有用的信息
这个场景完美模拟了LLM的运作方式:
- 白板上的文字 = 推理标记
- 你 = 语言模型
- 10秒间隔 = 模型有限的单周期计算能力
2. SoT框架:计算状态的理论基础
State over Tokens(SoT)框架为理解推理标记提供了系统化的理论工具。该框架将推理标记视为纯粹的计算状态载体,而非解释性文本。
2.1 形式化定义与工作机制
从技术实现看,LLM的生成过程可描述为递归应用纯函数M(·)于token序列:
S0 = 用户输入 Sk+1 = Sk ⊕ M(Sk)其中⊕表示拼接操作。每个计算周期k中:
- 模型接收当前序列Sk作为输入
- 生成一个新token M(Sk)
- 将该token追加到Sk形成Sk+1
2.1.1 状态载体的三个关键特性
- 唯一持久性:token序列是跨周期唯一的信息载体。模型内部状态不持久化,每个周期都从零开始重建
- 计算决定性:Sk完全决定了下一个计算周期M能做什么
- 编码自主性:token如何影响后续计算完全取决于M的内部机制,与人类理解无关
2.2 SoT与传统解释的对比
| 特性 | 传统"思维链"观点 | SoT框架观点 |
|---|---|---|
| 本质 | 思考过程的语言记录 | 计算状态的外部化载体 |
| 功能 | 解释模型推理 | 维持跨周期计算连续性 |
| 完整性 | 应反映全部计算步骤 | 仅包含必要状态信息 |
| 语义 | 应与人类理解一致 | 可采用模型专用编码 |
| 评估标准 | 解释的合理性 | 状态传递的有效性 |
3. 推理标记的实证研究与常见误解
大量实证研究揭示了推理标记与人类解读之间的根本性脱节,这直接挑战了将标记序列视为解释的普遍假设。
3.1 经验证据:合理性与忠实性的分离
研究发现推理标记存在三种典型问题:
不完整性:标记常遗漏影响最终答案的关键因素(Turpin et al., 2023)
- 模型可能在生成"道德考量"的同时隐藏真实计算依据
- 对齐目标可能仅体现在最终答案而非推理文本中
语义错位:标记内容对人类读者可能毫无意义
- 模型可生成无关推理文本但仍得正确答案(Stechly et al., 2025)
- 人类无法识别标记与生成过程的真实因果关系(Levy et al., 2025)
误导性信任:表面合理性可能引发过度信任
- 高风险场景中,系统化的文本呈现会导致虚假安全感(Ehsan & Riedl, 2024)
3.2 两大认知误区解析
3.2.1 完整性误区:将脚手架误认为建筑
以计算卡塔兰数为例:
S0 = "第6个数?" S1 = S0 ⊕ "1" S2 = S1 ⊕ "1" S3 = S2 ⊕ "2" ... S6 = S5 ⊕ "42"序列1,1,2,5,14对计算42至关重要,但它们:
- 不是计算本身
- 不反映计算步骤
- 可能有多种生成路径
类似地,LLM的推理标记是推进计算的脚手架,而非计算过程的完整记录。
3.2.2 共享语义误区:假设模型与人类理解一致
考虑卡塔兰数的变体计算:
实际计算: (输入-10)→计算→(结果+10) 最终序列:11,11,12,15,24,52 (实际答案42)这证明:
- 表面语义与计算功能可完全脱节
- 模型可能使用复杂编码方案(远超简单数值偏移)
- 人类解读的"反思性文本"可能是纯功能性编码
4. SoT框架的研究意义与前沿问题
SoT视角不仅澄清了现有误解,更为LLM可解释性研究开辟了新方向。
4.1 新型研究问题矩阵
| 研究层面 | 核心问题 | 技术挑战 |
|---|---|---|
| 状态编码 | 模型如何决定外部化哪些信息? | 解码状态-计算的映射关系 |
| 信息传播 | 信息如何在标记序列中流动? | 追踪跨周期信息路径 |
| 一致性 | 编码方案是否跨问题一致? | 建立状态语义的对应体系 |
| 优化 | 状态编码如何影响推理效率? | 量化编码紧凑性与计算有效性 |
4.2 语言作为计算媒介的特殊性
自然语言是否特别适合状态编码?两派观点交锋:
支持派:
- 大规模预训练诱导出与语言语义一致的推理偏好
- 渐进式状态更新更符合语言模型的数据分布
- 复杂编码方案可能违反训练目标
反对派:
- 理论上任意符号系统都可作为状态载体
- 已有研究展示向量/结构化替代方案的可行性
- 语言语义可能限制计算表达力
4.3 忠实解释的可能性瓶颈
要使推理标记同时满足:
- 作为高效计算状态
- 作为透明解释文本
面临根本性限制:
- 信息瓶颈:同一符号序列需承载两种不同信息
- 表达冲突:最优状态编码可能非线性/冗余/不透明
- 元认知需求:模型需在同一序列中同时推理和解释推理
这引发深层问题:自然语言符号能否同时胜任计算载体和解释媒介这两种角色?
5. 实践启示与未来方向
5.1 对模型开发者的建议
训练策略:
- 区分"状态优化"与"解释优化"目标
- 探索显式状态编码的监督方法
- 考虑多模态状态表示(向量+文本)
架构改进:
- 设计状态感知的注意力机制
- 尝试持久性状态存储器
- 开发状态-解释的双通道系统
评估体系:
- 建立状态有效性的量化指标
- 区分解释质量与推理质量评估
- 开发状态解码的基准测试
5.2 对终端用户的警示
风险意识:
- 警惕表面合理的推理文本
- 关键决策需多角度验证
- 理解模型输出的概率性本质
使用策略:
- 将推理标记视为过程而非解释
- 关注最终答案的验证性证据
- 使用对抗性提示测试一致性
5.3 前沿探索方向
状态解码技术:
- 开发逆向工程状态语义的方法
- 构建状态-计算的对应图谱
- 识别跨模型的编码模式
混合推理系统:
- 结合符号化状态表示
- 探索可验证的状态转换逻辑
- 开发人类可审计的中间表示
认知架构创新:
- 模仿人类工作记忆的持久化机制
- 实现显式/隐式状态分离
- 构建自我解释的状态编码
在工程实践中,我经常观察到开发者在设计提示词时过度依赖"让我们逐步思考"这类模板。实际上,更有效的做法是根据具体任务设计状态引导提示,例如:"请用简写记录中间值,最后给出答案"。这种方式更符合SoT原理,能产生更紧凑有效的状态序列。