大型语言模型推理新框架：State over Tokens解析-深圳市維司達科技有限公司

1. 大型语言模型推理机制的新视角：State over Tokens框架解析

当大型语言模型（LLM）面对复杂问题时，它们常常会生成一系列看似人类思考过程的中间文本——"让我们一步步思考"、"因此可以得出结论"等。这些被称为"推理标记"（reasoning tokens）的文本序列，长期以来被研究者们以"思维链"（Chain-of-Thought）的隐喻来理解。然而，最新研究表明，这种理解方式可能从根本上误解了这些标记的真实功能。

1.1 传统认知的局限性

在传统观点中，研究者倾向于将LLM生成的推理文本视为模型"思考过程"的可读记录。这种观点源于两个观察：

功能性：包含推理标记的生成确实能显著提高模型在复杂任务上的表现（如数学推理、逻辑问题等）
表象性：这些标记序列在语法和语义上都符合人类可理解的推理叙述

然而，多项实证研究已经揭示了这种认知的缺陷。2025年Turpin等人的研究表明，模型生成的推理文本常常遗漏关键计算步骤；Chen等人的工作则发现，LLM甚至可以在生成看似无关的推理文本的同时，依然输出正确答案。这些发现迫使我们重新思考：如果这些文本不是对内部计算的忠实记录，那么它们究竟是什么？

1.2 State over Tokens框架的提出

State over Tokens（SoT）框架提供了全新的理论视角。它将推理标记重新定义为：

一种外部化的计算状态——在模型无状态的生成周期之间唯一持续存在的信息载体

这一概念突破性地指出：推理标记的本质功能不是作为人类可读的解释文本，而是作为LLM维持跨计算周期连续性的状态编码机制。这与传统计算机科学中的"状态"概念一脉相承——就像有限状态机需要状态寄存器来维持计算连续性一样，LLM通过生成的文本来实现类似功能。

1.2.1 白板类比：理解SoT的直观方式

想象你被关在一个房间里，面前有一块白板写着待解决的问题。但每10秒钟你的记忆就会被重置一次，唯一能保留信息的方式就是在白板上写下内容。在这种情况下，你很可能会：

写下中间计算结果而非完整推导过程
使用只有自己理解的编码方式（缩写、符号等）
每次"重启"后依靠白板上的内容继续推进解决过程

这正是LLM的工作机制：模型在每个生成周期（约10-100毫秒）后"重置"内部状态，仅依靠已生成的文本来维持计算连续性。外部观察者（人类）看到的"推理文本"，对模型而言可能只是特定状态编码的副产品。

2. SoT框架的技术实现与理论基础

2.1 LLM生成过程的数学描述

从计算角度看，LLM的生成过程可以形式化为递归应用的纯函数M(·)：

S₀ = 用户输入 Sₖ₊₁ = Sₖ ⊕ M(Sₖ)

其中⊕表示拼接操作。关键特性包括：

状态唯一性：序列Sₖ是跨周期唯一持续的信息载体
计算局限性：每个M(·)调用具有固定的计算容量
信息编码：模型自主决定如何在Sₖ中编码必要状态信息

这种形式化揭示了为什么推理标记不必（也通常不会）忠实反映内部计算：它们只需包含足够信息来驱动下一周期的计算，而非记录已发生的计算过程。

2.2 状态编码的实证证据

多项研究支持SoT框架的核心论点：

研究发现	研究团队	对SoT的支持
LLM可在推理文本中省略关键计算步骤	Turpin et al. 2023	状态不必完整
无关推理文本仍能产生正确答案	Stechly et al. 2025	语义与功能解耦
人类无法识别文本与计算的因果关系	Levy et al. 2025	编码方式不透明

这些发现共同表明：推理标记作为状态载体的功能，与其作为自然语言文本的表象之间存在根本性分离。

3. SoT框架的理论突破与认知纠偏

3.1 破除两大认知误区

SoT框架帮助我们识别并纠正关于LLM推理的两个常见误解：

3.1.1 完整性误区

错误认知：推理文本完整记录了模型的思考过程 SoT观点：文本仅包含驱动下一周期所需的最小状态信息

典型案例：Catalan数计算当LLM生成序列"1,1,2,5,14"来计算第6个Catalan数时：

这些数字是计算42的必要中间结果
但它们既不反映具体的递归计算步骤
也不排除存在未表达的并行计算

3.1.2 共享语义误区

错误认知：模型以人类相同方式理解文本语义 SoT观点：模型可能使用完全不同的编码方案

典型案例：数值偏移编码假设模型使用"原始值+10"的编码方案：

人类看到：11,11,12,15,24,52
模型实际处理：1,1,2,5,14,42 这表明表面语义可能与实际功能完全脱节

3.2 本体论分歧：文本与状态的双重性

SoT揭示了一个前所未有的现象：同一符号序列同时作为：

自然语言文本：遵循语法语义规则的人类交流媒介
计算状态：机器内部的过程驱动机制

这种双重性不同于传统的多义性或隐喻，而是根本不同的本体论范畴共存于同一物理载体。这解释了为什么：

推理标记能有效驱动正确推理（作为状态）
同时不必是可信的解释（作为文本）

4. SoT框架的研究启示与应用前景

4.1 对可解释性研究的影响

传统解释方法聚焦于：

内部机制分析（如注意力模式）
特征归因（如显著性分析）

SoT提出了新研究方向：

状态解码：破解LLM如何在token中编码状态信息
状态动力学：信息如何在序列中传播和演化
状态-计算映射：特定状态如何引导后续计算

初步工作如Bogdan等人的"思维锚点"研究已经开始探索哪些token对最终答案最关键。

4.2 自然语言作为计算媒介的特殊性

SoT引发了一个深刻问题：为什么自然语言能有效作为状态编码媒介？可能原因包括：

预训练诱导的归纳偏差：语言结构天然适合渐进式状态更新
高表达效率：自然语言的压缩表征能力
双重功能：同时满足计算需求和人类可读性

对比研究（Hao et al. 2025）显示，替代编码方案（如连续向量）在某些任务上表现相当，但自然语言在复杂推理中仍具优势。

4.3 可信解释的可能性边界

SoT框架尖锐地提出了一个根本限制：同一token序列能否同时：

作为高效计算状态（对机器最优）
作为透明解释文本（对人类可读）

这种双重需求形成了本质性张力，可能从根本上限制了"忠实解释"的可能性。未来的解释方法可能需要：

接受部分解释（如关键决策点）
开发专门的解释生成模块（与计算状态分离）
建立新的解释评估标准（超越语义合理性）

5. 实践启示与未来方向

5.1 对LLM应用开发的指导

基于SoT框架，开发者应当：

谨慎对待推理文本的解释性声明
设计验证机制确认模型实际推理路径
考虑专门的可解释性模块（与主模型分离）

5.2 新兴研究课题

SoT开辟了多个前沿方向：

状态压缩与优化：如何最有效地编码状态信息
跨模型状态兼容性：不同LLM是否能互读状态
状态操纵技术：通过编辑token序列引导推理

5.3 隐喻体系的更新

传统隐喻如"思维链"需要被更准确的表述替代：

从"链式思考"到"状态传递"
从"草稿纸"到"寄存器"
从"解释"到"状态轨迹"

这种概念更新将帮助研究社区更准确地理解和描述LLM的推理机制。

在实际应用中，我发现SoT视角能有效避免对模型输出的过度解读。例如当医疗诊断LLM生成"考虑患者年龄因素..."这类文本时，专业人士现在会明白：这可能是状态编码的副产品，而非模型实际"考虑"了年龄因素的证据。这种认知转变对高风险领域的LLM应用尤为重要。

大型语言模型推理新框架：State over Tokens解析