小语言模型词嵌入优化：Leviathan架构解析-深圳市維司達科技有限公司

1. 小语言模型中的词嵌入困境与Leviathan解决方案

在自然语言处理领域，词嵌入技术是构建语言模型的基石。传统Transformer架构采用离散的查找表机制，将每个token映射到固定维度的向量空间。这种设计在大语言模型(LLMs)中表现良好，因为嵌入矩阵仅占参数总量的很小部分。然而，在小语言模型(SLMs)场景下，这种设计却暴露出严重的参数效率问题。

以一个典型的小型模型为例：隐藏维度D=1024，使用GPT-2的50,000词表。此时嵌入矩阵E∈R^(V×D)将消耗50M参数，在100M参数的模型中就占据了50%的"参数预算"。如果采用非共享权重的输出层，整个模型的参数将被这两个矩阵完全占据，几乎没有空间留给真正的"推理"层。

当前业界主要通过两种方式缓解这个问题：

权重绑定(Tying)：将输入嵌入矩阵与输出层权重共享
矩阵分解(Factorization)：如ALBERT采用的V×E和E×D分解

但这些方法都存在明显局限。权重绑定强制输入输出空间几何结构相同，而实际上二者功能需求不同——输入需要高效的检索机制，输出则需要高容量的概率流形投影。矩阵分解虽然减少参数，但引入了严格的线性瓶颈，限制了高阶语义交互的表示能力。

Leviathan架构的创新之处在于完全摒弃了离散查找表的概念，转而采用连续词嵌入生成器。其核心思想是将词汇表视为一个连续空间中的坐标点，通过可分离神经架构(Separable Neural Architecture, SNA)生成对应的嵌入向量。这种方法实现了O(³√V·D)的参数缩放，打破了词汇量V与模型容量之间的线性依赖关系。

关键洞见：传统嵌入矩阵的每个参数只服务于特定token，而Leviathan的生成器参数被所有token共享，通过连续函数的结构化参数化实现更高效的参数利用。

2. Leviathan架构的三大核心技术组件

2.1 潜在组合索引(Latent Compositional Indexing)

Leviathan首先将词汇表V分解为k维潜在坐标网格。设定基数b=⌈k√V⌉，每个token索引i通过基b分解被映射到坐标(i₁,...,iₖ)。例如当V=200,376(59³)时，取k=3，每个token被转换为三维坐标：

i → (i₁,i₂,i₃) = (⌊i/59²⌋, ⌊(i%59²)/59⌋, i%59)

这些坐标用于索引k个共享的潜在码本C₁,...,Cₖ∈R^(b×d_seed)。最终的种子向量z∈R^d_seed通过码本向量求和得到：

z(i) = Σ_{r=1}^k C_r[i_r]

这一步骤将索引参数从O(V)压缩到O(k·k√V)，实现了超过1100倍的压缩率（200,376→177参数）。

2.2 B样条基展开(B-spline Basis Expansion)

这是Leviathan最具革新性的设计。传统方法将token索引直接作为查表键，而Leviathan将归一化后的种子向量˜z∈[0,1]^d_seed视为连续函数近似器的输入。具体实现采用二次B样条基函数：

每个维度r的坐标x_r通过ϕ_r(x_r) = Σ_{j=0}^n c_j B_j^2(x_r)展开其中B_j^2是二阶B样条基函数，c_j为可学习参数

这种展开方式具有局部支持、数值稳定等优良性质，能够有效建模连续空间中的复杂函数关系。实验中采用32个节点(grid points)的均匀B样条网格。

2.3 张量积聚合(Tensor Product Aggregation)

Leviathan通过张量积构造M个秩1可分离组件（称为模式modes），每个模式是各维度基函数的乘积：

Mode_j(x) = Π_{r=1}^{d_seed} ϕ_{r,j}(x_r)

最终的表征是M个模式的加权和，加上种子向量的残差连接：

e_i = W_out·concat(Mode_1(˜z_i),...,Mode_M(˜z_i)) + W_res·˜z_i

这种结构在数学上被证明是通用逼近器（见附录A），能够以任意精度逼近连续函数。实验中采用M=8个模式，d_seed=128，实现了高表达力与参数效率的平衡。

3. 实验验证与性能优势

3.1 实验设置与对照设计

研究团队在Pile数据集上进行了严格控制的对比实验，设计了两种对照模式：

等体对照(Iso-body)：保持Transformer主干(层数、宽度、注意力头数)完全相同，比较标准稠密嵌入(权重绑定)与Leviathan生成器的表现。此时Leviathan仅有约2.5M额外参数。

等参对照(Isoparametric)：将Leviathan节省的参数重新投资到模型深度。例如在109M参数规模下，稠密基线只有6层，而Leviathan可扩展到52层。

所有模型使用o200k基础分词器(V=200,376)，训练序列长度512，批量大小512，采用AdamW优化器。为消除偶然因素，每个稠密-Leviathan模型对使用完全相同的token流训练。

3.2 核心性能指标

在60-420M参数范围内，Leviathan展现出显著优势：

等效参数容量：通过拟合稠密模型的缩放定律，Leviathan表现出1.47-2.11倍的"有效参数容量"。421M的Leviathan达到725M稠密模型的验证损失。
困惑度降低：在等体设置下，Leviathan实现6.7%-18.1%的验证困惑度降低，且优势随训练持续扩大（见图6）。
缩放指数改善：参数缩放指数从稠密的0.38提升到0.47，数据缩放指数从0.39提升到0.47，表明每增加单位参数或数据，Leviathan获得更大收益。

模型规模	参数节约	层数增加	等效容量倍数
109M	49.7%	6→52层	2.11×
421M	28.4%	12→28层	1.72×

3.3 长尾训练现象

与传统认知不同，Leviathan在"过度训练"(overtraining) regime中优势更加明显。以60M级模型为例，在100×N tokens训练后，困惑度降低仍持续增长。这表明：

连续嵌入结构具有更强的知识压缩能力
传统嵌入矩阵可能在后期训练中成为瓶颈
Leviathan更适合计算资源充足的长周期训练

4. 技术实现与工程考量

4.1 计算开销分析

Leviathan的主要代价是生成器模块带来的计算开销：

模型规模	训练吞吐降低	推理延迟增加
60M	51%	43ms→67ms
410M	23%	112ms→138ms

这种开销主要来自当前实现中的scatter操作未充分优化，而非算法本质限制。值得注意的是，Leviathan的样本效率优势(1.7×)超过了吞吐损失(1.3×)，净训练时间反而更短。

4.2 内存优化效果

Leviathan的内存占用优势更为显著：

组件	稠密模型	Leviathan	节约比
嵌入矩阵	200K×D	177×128	99.9%
生成器参数	-	~2.5M	-
总参数	100%	50-70%	显著

这使得在相同硬件条件下，Leviathan可以训练更大batch size或更长序列，进一步优化训练效率。

4.3 实际部署建议

基于实验结果，我们推荐以下实践方案：

小模型场景：当参数<1B时，优先采用Leviathan架构，将节约的参数投资于增加深度
长序列任务：配合RoPE等位置编码，Leviathan的高效嵌入允许使用更密集的分词器，缩短实际序列长度
持续训练：计划长时间训练时，Leviathan的长期收益更明显
多模态扩展：处理视觉patches等连续信号时，Leviathan的连续特性更具优势

5. 未来方向与潜在影响

Leviathan的设计理念开辟了多个有前景的研究方向：

动态词汇适应：通过调整分词器坐标映射，无需重训练即可扩展词汇表
混合精度训练：连续嵌入对量化误差更鲁棒，可能实现更大压缩
多模态统一：视觉、音频等连续信号可共用同一生成器架构
硬件协同设计：为张量积聚合开发专用内核，消除当前实现瓶颈

从更宏观视角看，这项工作挑战了神经网络缩放定律的一个基本假设——参数等价性。它表明，通过更智能的参数分配，我们可能突破当前缩放定律预测的性能上限。这对于资源受限的应用场景尤其有价值，如边缘设备上的语言模型部署。

小语言模型词嵌入优化：Leviathan架构解析