EAGLE-3：大模型推理加速的新范式-深圳市維司達科技有限公司

一、背景：为什么需要 EAGLE-3？

大语言模型（LLM）的自回归生成方式存在一个根本瓶颈：每次只能生成一个 token。对于一个 70B 参数的模型，这意味着每次前向传播都要从 HBM 加载约 60GB 的权重，却只产出 1 个 token。这种"高延迟、低利用率"的特性使得 LLM 推理成本高昂，用户体验受损。

推测解码（Speculative Decoding）是解决这一问题的有效方案：用一个轻量级的草稿模型快速生成多个候选 token，再用目标大模型并行验证。但传统方法（如标准推测采样、Medusa）存在明显局限：

标准推测采样：草稿模型与目标模型完全独立，接受率低（~60%）
EAGLE/EAGLE-2：复用目标模型顶层特征，但受限于特征预测约束和单层特征来源，数据扩展性有限

EAGLE-3 正是在这一背景下诞生的第三代推测解码框架，它通过三项核心创新实现了3x-6.5x 的无损加速。

二、EAGLE-3 整体架构

EAGLE-3 的系统架构由两大核心模块组成：

┌─────────────────────────────────────────────────────────────────────┐ │ EAGLE-3 系统架构 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ ┌─────────────────────────┐ ┌─────────────────────────────┐ │ │ │ 目标大模型 │ │ 草稿模型 │ │ │ │ (Target LLM, 冻结) │◄────►│ (Draft Model, 可训练) │ │ │ │ │ │ │ │ │ │ • 70B/8B 等参数规模 │ │ • 仅 1-4 层 Transformer │ │ │ │ • 推理时权重完全冻结 │ │ • 参数量约为目标模型 1/20 │ │ │ │ • 负责并行验证草稿 │ │ • 负责快速自回归生成草稿 │ │ │ │ • 提供多层隐藏状态 │ │ • 复用目标模型 Embedding │ │ │ │ │ │ • 复用目标模型 LM Head │ │ │ └─────────────────────────┘ └─────────────────────────────┘ │ │ │ ▲ │ │ │ 多层特征融合 │ │ │ └────────► [g_t] ─────────────────┘ │ │ (低+中+高层特征拼接降维) │ │ │ └─────────────────────────────────────────────────────────────────────┘

核心组件

组件	功能	是否训练
目标模型	原始大模型，提供高质量验证	❌ 冻结
多层特征融合模块	从目标模型提取低/中/高层特征，拼接后降维	✅ 训练
草稿模型	1-4 层轻量 Transformer，快速生成草稿	✅ 训练
LM Head	将草稿输出映射到词表分布	❌ 复用目标模型
Embedding 层	Token 嵌入	❌ 复用目标模型

三、核心技术一：多层特征融合

3.1 为什么不用顶层特征？

EAGLE/EAGLE-2 只使用目标模型顶层特征（LM Head 前的向量）。但顶层特征有一个根本局限：它已经被优化为只包含"预测下一个 token"的信息，对于预测 t+2,t+3 等后续 token，信息严重不足。

EAGLE-3 的解决方案是：融合多层特征。

3.2 具体做法

从目标模型的 N 层中均匀采样 M 层（通常 M=3 ）：

总层数 N = 32 (LLaMA-3.1-8B) 采样层数 M = 3 采样位置: l_1 = Layer 2 (低层，捕捉词法/句法) l_2 = Layer 16 (中层，捕捉语义关系) l_3 = Layer 29 (高层，捕捉推理意图)

融合公式：

gt=FC([hl1(t)⊕hl2(t)⊕hl3(t)])

其中：

hli(t)∈Rd ：第 li 层在时间步 t 的隐藏状态（残差连接后的最终输出）
⊕ ：向量拼接
FC:R3d→Rd ：全连接降维

维度变化：3 × ℝ⁴⁰⁹⁶ → ℝ¹²²⁸⁸ →ℝ⁴⁰⁹⁶

3.3 不同层的信息特性

层级	深度	主要编码信息	对草稿模型的作用
Layer 2	浅层	词法、局部句法	确保 token 级别的语法正确性
Layer 16	中层	语义关系、指代消解	理解词语间的语义关联
Layer 29	深层	推理意图、全局上下文	捕捉高层决策信息

四、核心技术二：TTT（Training-Time Test）

4.1 核心问题：训练-推理分布偏移

这是推测解码领域长期存在的"暴露偏差"（Exposure Bias）：

训练时：草稿模型输入的是目标模型的完美特征 g_t（ground truth） 推理时：草稿模型输入的是自己的不完美输出 a_t（带有误差） → 训练分布 ≠ 推理分布 → 误差累积 → 接受率暴跌

4.2 TTT 的具体操作

TTT 在训练阶段模拟推理时的自回归过程，让草稿模型"提前适应"不完美输入。

Native Step（原生训练步）

输入: [g_1, g_2, ..., g_t] (全部目标模型完美特征) 输出: a_{t+1} (预测第 t+1 个 token) 损失: CE(a_{t+1}, ground_truth_{t+1})

Simulated Step（模拟测试步）—— TTT 核心

⚡ 关键操作：用草稿模型自己的输出 a_{t+1} 替代目标模型的特征 g_{t+1} 输入: [g_1, g_2, ..., g_t, a_{t+1}, e_{t+1}] 输出: a_{t+2} (预测第 t+2 个 token) 损失: CE(a_{t+2}, ground_truth_{t+2})

继续模拟 K 步（通常 K=3-5）。

4.3 TTT 的 Attention Mask 设计

TTT 需要特殊的注意力掩码来模拟推理时的可见性：

位置: How can I help you today 类型: g g g a a a ↓ ↓ ↓ ↓ ↓ ↓ How(g) [ 1 0 0 0 0 0 ] ← 只能看自己 can(g) [ 1 1 0 0 0 0 ] ← 看前缀 I(g) [ 1 1 1 0 0 0 ] ← 看前缀 help(a) [ 1 1 1 1 0 0 ] ← 看前缀+自己 you(a) [ 1 1 1 1 1 0 ] ← 看全部前面 today(a)[ 1 1 1 1 1 1 ] ← 看全部

规则：

g（目标特征）之间：标准因果掩码
a（草稿输出）对g：全部可见（获取前缀信息）
a（草稿输出）之间：全部可见（双向注意力，模拟并行草稿）

4.4 TTT 解决的核心问题

问题	EAGLE（无 TTT）	EAGLE-3（有 TTT）
训练输入	完美特征 gt	混合 gt 和 at
推理输入	不完美 at	不完美 at
分布偏移	严重	消除
多步接受率	指数衰减（3-α ≈ 45%）	线性缓慢下降（3-α ≈ 82%）

五、核心技术三：直接 Token 预测

5.1 EAGLE 的特征预测约束

EAGLE/EAGLE-2 的损失函数包含特征预测损失：

LEAGLE=特征预测约束MSE(f^t+1,ft+1)+λ⋅CE(t^t+1,tt+1)

这个约束要求草稿模型的输出必须匹配目标模型的顶层特征，限制了草稿模型的表达能力。

5.2 EAGLE-3 的解放

EAGLE-3完全移除特征预测约束，直接优化 token 预测：

LEAGLE-3=∑i=1Kλi⋅CE(t^t+i,tt+iground_truth)

好处：

草稿模型输出完全自由，不再被目标模型顶层特征"绑架"
可以充分利用多层融合特征 gt 的丰富信息
配合 TTT 训练，实现数据规模的可扩展性（Scaling Law）

六、完整推理流程示例

以用户输入"How can"，期望输出"How can I help you with your problem?"为例：

Round 1：Prefill（目标模型生成第一个 Token）

目标模型: "How can" → 生成 "I" └── 同时提取多层特征 → 融合为 g_how, g_can 已验证序列: ["How", "can", "I"]

Round 2：Draft Generation（草稿模型生成 K=3 个候选）

Step 1: [g_how, g_can, e_I] → "help" Step 2: [g_how, g_can, a_help, e_help] → "you" ⚡ 用草稿输出替代 Step 3: [g_how, g_can, a_help, a_you, e_you] → "?" 草稿序列: ["help", "you", "?"]

Round 3：Verification（目标模型并行验证）

目标模型验证: "How can I help you ?" "help": ✓ 接受 (p_target=0.38, p_draft=0.35, α=1.0) "you": ✓ 接受 (p_target=0.45, p_draft=0.42, α=1.0) "?": ✗ 拒绝 (p_target=0.12, p_draft=0.55, α=0.22) → 从差异分布重采样: "with" 已验证序列: ["How", "can", "I", "help", "you", "with"] 接受长度 τ = 2

Round 4-5：继续 Draft → Verify

基于新验证序列继续生成草稿 → 目标模型验证 → 全部接受 最终结果: "How can I help you with your problem?"

效率对比：

自回归：9 次目标模型前向传播
EAGLE-3：3 次目标模型前向传播 + 草稿生成（极快）
加速比：~3x+

七、训练过程详解

7.1 训练数据

使用对话数据（ShareGPT、UltraChat）或推理数据（GSM8K、OpenThoughts）：

数据格式： 输入 prompt → 目标模型生成完整回复 → 收集 (prompt, response) 对

7.2 训练步骤

Step 1: 目标模型前向传播（冻结） └── 输入: 训练数据序列 └── 输出: 每一层的隐藏状态 └── 提取: h_low, h_mid, h_high → 融合为 g_t Step 2: TTT 训练草稿模型 └── Native Step: 用 g_t 预测第 1 个 token └── Simulated Step 1: 用 a_1 替代 g_{t+1}，预测第 2 个 token └── Simulated Step 2: 用 a_1, a_2 预测第 3 个 token └── ... 重复 K 步 Step 3: 计算多步损失并反向传播 └── 只更新草稿模型和融合模块参数

7.3 损失函数

LTTT=∑i=1Kλi⋅CrossEntropy(t^t+i,tt+iground_truth)

其中 λi=exp(−γi−1) ，前面的 token 权重更高。

八、性能表现

方法	MT-bench	HumanEval	GSM8K	平均 τ	加速比
标准推测采样	1.93x	2.23x	1.77x	2.24	~2x
Medusa	2.07x	2.50x	2.23x	2.51	~2.5x
EAGLE	3.07x	3.58x	3.08x	3.96	~3x
EAGLE-2	4.26x	4.96x	4.22x	4.83	~4.5x
EAGLE-3	5.58x	6.47x	5.32x	6.62	~5.5x

关键发现：

EAGLE-3 的3-α 接受率（前面3个token都是草稿生成时的第4个token接受率）从 EAGLE 的 ~45% 提升到 ~82%
在 SGLang 框架中，batch size=64 时吞吐量提升40%
首次在推测解码领域发现Scaling Law：更多训练数据 → 更高接受率

九、EAGLE-3 与 MTP 的区别

维度	EAGLE-3	MTP (Multi-Token Prediction)
本质	推测解码框架	训练目标/辅助任务
目标	推理加速（无损）	提升模型质量 + 辅助加速
阶段	后训练（Post-hoc）	预训练/微调阶段（Joint Training）
草稿模型	独立的轻量 Transformer	主模型 + 多个投影头
特征注入	多层特征融合（TTT）	仅顶层隐藏状态
训练数据	需要额外数据	使用预训练相同数据
加速比	3-6.5x	1.5-2x（作为推测解码时）

十、总结

EAGLE-3 通过三项核心创新实现了推测解码的重大突破：

直接 Token 预测：移除特征预测约束，释放模型表达能力
多层特征融合：替代单层顶层特征，获得更丰富的上下文信息
TTT 训练：在训练时模拟推理自回归，消除分布偏移，使草稿模型具备"容错"和"纠错"能力

这三项改进共同作用，使 EAGLE-3 成为当前无损推测解码领域的 SOTA 方法，加速比达到3.0x-6.5x，且在大 batch 场景下仍能保持显著吞吐量提升，打破了"推测解码只适用于小 batch"的传统认知。

EAGLE-3：大模型推理加速的新范式