小模型不一定要从头练！普林斯顿研究：预算有限剪枝完胜，但真正的优势藏在稀疏里-深圳市維司達科技有限公司

如今，大模型赛道一个有趣的趋势是，大家越来越关注“小模型”。无论是出于端侧部署的效率需求，还是为了降低推理成本，一个性能强大、尺寸精悍的小模型，正成为许多团队的“梦中情模”。那么，如何经济高效地获得一个强大的小模型？

ArXiv URL：http://arxiv.org/abs/2606.14150v1

通常有两条路：一是“从头开始”，收集海量数据，扎扎实实地训练一个全新的小模型；二是走“捷径”，找一个现成的、强大的大模型，通过“剪枝”（Pruning）技术，把它“瘦身”成一个小模型。

直觉上，剪枝似乎更讨巧，因为它能继承大模型的“知识”，相当于站在巨人的肩膀上。但这个“巨人”本身也消耗了海量的计算资源才训练出来。这条捷径到底值不值？在严格的资源控制下，它真的比从头训练更好吗？

来自卡内基梅隆大学、纽约大学和普林斯顿大学的最新研究，通过对Llama-3.1-8B进行系统性的剪枝实验，给出了迄今为止最清晰的答案。

核心结论可以浓缩为一句话：在训练预算有限的情况下，剪枝是获得高性能小模型的明确赢家；但如果预算充足，从头训练可以追平甚至超越粗粒度的结构化剪枝，却难以撼动细粒度稀疏剪枝的优势——这揭示了剪枝所传递的知识，并非“钞能力”可以完全替代。

01 “造”个小模型，捷径真的存在吗？

随着Llama、Gemma、Qwen等强大的开源大模型唾手可得，一个实际的问题摆在所有开发者面前：当我们需要一个特定尺寸（比如4B参数）的模型时，是应该从零开始，用数千亿甚至上万亿的Token从头预训练一个，还是直接拿现成的Llama-3.1-8B来“砍一刀”？

剪枝的诱惑力在于，它承诺了一条通往强大小型模型的捷径。理论上，大模型在训练过程中已经学到了关于语言、世界和推理的复杂模式，剪枝操作可以保留这些知识的精华，从而得到一个“出生就在罗马”的小模型。相比之下，从头训练的模型则需要自己从零开始探索和学习。

但这种继承并非没有代价。首先，必须先有一个训练好的大模型作为“父模型”。其次，剪枝后的模型通常也需要一轮“再训练”（retraining）来恢复性能。整个流程的真实成本，需要把父模型的预训练成本也考虑在内。

这就引出了一个悬而未决的关键问题：剪枝带来的优势，究竟只是一个可以被更多训练数据追上的“先发优势”，还是一种无法通过额外数据弥补的“知识转移”？这篇论文的工作，正是为了在严格控制变量的条件下，正面回答这个问题。

02 重新定义问题：剪枝不是压缩，是“初始化”

要进行公平的比较，首先需要一个清晰的定义。过去，我们常将剪枝视为一种模型压缩技术，目的是让大模型变得更小。

而本文的研究人员提出了一个关键的视角转换：将剪枝视为一种初始化（initialization）策略。

也就是说，剪枝后得到的权重，不再被看作是最终成品，而是被当作训练目标小模型的一个“高质量起点”。与之相对的，就是从一个随机生成的权重集合开始训练，即“随机初始化”。

这个视角的转变，让比较的基准变得异常清晰。问题不再是“剪枝后的模型vs原始大模型”，而是：

在拥有相同目标架构、使用相同训练数据流的情况下，采用“剪枝初始化”是否优于“随机初始化”？

为了彻底回答这个问题，研究人员设计了两种严格的“Token匹配”对比实验：

同等训练预算对比 (Equal training token budget)：假设剪枝后的模型需要用50B Token进行再训练。那么，从头训练的随机初始化模型，也只给50B Token的训练数据。这能直接衡量两种初始化策略的优劣。
同等总预算对比 (Equal total token budget)：将剪枝流程的总耗费计算在内。假设父模型预训练用了200B Token，剪枝后再训练用了50B Token，总计250B。那么，从头训练的模型就给予全部250B Token的训练数据。这旨在检验，“钞能力”（更多的训练数据）是否能抹平剪枝带来的优势。

03 实验设计：在 Llama-3.1-8B 上挥舞六把“手术刀”

实验的“手术台”选定为当前最先进的开源模型之一：Llama-3.1-8B。研究人员选择了六种有代表性的剪枝方法，覆盖了从粗到细的不同“粒度”（granularity），如同六把功能各异的“手术刀”。

这些方法主要分为两大类：

结构化剪枝 (Structured Pruning)：移除完整的模型组件，比如整个Transformer层（深度剪枝）、注意力头或前馈网络中的通道（宽度剪枝）。这就像从一栋大楼里拆掉一整层或一整根柱子，得到的是一个更小但依然是“标准”的密集架构。代表方法有Minitron-D (深度)、Minitron-W (宽度)、FLAP和Sheared LLaMA。
稀疏剪枝 (Sparse Pruning)：不改变模型的宏观架构，而是将单个或小簇的权重参数置为零。这好比保持大楼的框架不变，但把墙壁里的部分钢筋或电线抽掉。这种方法更加灵活，但生成的稀疏模型需要特定的硬件或软件库才能高效推理。代表方法有Wanda和SparseGPT。

实验的核心围绕50%的剪枝率展开，即将8B的Llama-3.1模型压缩到约4B。这是一个业界常用的标准设定，便于横向比较。

04 发现一：预算有限，剪枝完胜

在第一个对比场景——“同等训练预算”下，结论异常明确。

当给予相同的再训练Token数量（例如50B）时，所有六种剪枝方法得到的“剪枝初始化”模型，其性能都稳定地、全方位地优于“随机初始化”的从头训练模型。

上图展示了Minitron-D（一种深度剪枝方法）的结果。紫色线代表剪枝后继续训练的模型（P200-RN），蓝色线代表从头训练的模型（SN）。无论是在验证集损失（越低越好）还是下游任务平均准确率（越高越好）上，紫色线从一开始就处于领先地位，并且在整个再训练过程中始终保持优势。

具体到数字上，使用Minitron-W方法剪枝的模型，在常识问答基准Hellaswag上的准确率比从头训练高出10.2%。对于稀疏剪枝，这种优势同样存在，并且粒度越细（非结构化vs 2:4稀疏），优势越大。

这有力地证明了，父模型传递的知识确实提供了一个强大的起点，让小模型在学习过程中“少走弯路”。

然而，这种优势并非无限。研究人员发现，随着剪枝率的提高（即模型被砍掉的部分越多），剪枝初始化的优势会逐渐减小。当剪枝率达到惊人的81.3%时，剪枝模型的性能就和从头训练基本持平了，甚至在某些指标上略有不如。

这也很符合直觉：当你把父模型砍得只剩骨架时，其蕴含的“知识遗产”自然也就所剩无几了。

05 发现二：预算充足，“钞能力”也买不来稀疏知识

那么，如果给从头训练的模型足够多的数据，它能追上剪枝模型吗？这就来到了第二个对比场景——“同等总预算”。

在这里，故事变得复杂起来，并且揭示了不同剪枝粒度之间的深刻差异。

对于粗粒度的结构化剪枝，答案是“能”。

当从头训练的模型（S250）获得了剪枝全流程所消耗的全部250B Token后，它的性能成功追上甚至反超了剪枝模型（P200-R50）。例如，在使用Minitron-D方法时，S250在所有基准上都优于P200-R50。

这意味着，结构化剪枝带来的“先发优势”，本质上是可以用更多的训练数据来弥补的。

但对于细粒度的稀疏剪枝，答案却是“不能”。

即使从头训练的模型获得了海量数据，它在多数基准上的表现依然与稀疏剪枝后的模型相当，甚至更差。特别是在最细粒度的非结构化稀疏剪枝（Wanda-U）上，剪枝模型在8个下游任务中的6个都保持着领先。

这是整篇论文最令人深思的发现。它强烈暗示，细粒度剪枝所转移的知识，具有某种特殊性，它并非简单地增加训练数据就能学到的。这些分布在亿万权重中的精妙模式，似乎是大模型在海量数据和巨大规模下“涌现”出的独特结构，而从头训练的小模型很难在有限的规模内复现这种结构。

06 粒度之辨：性能与效率的“鱼与熊掌”

综合来看，研究揭示了一个清晰的规律：在相同的剪枝率下，剪枝的粒度越细，保留的父模型性能越多，对从头训练的优势也越大。

非结构化稀疏>2:4稀疏>宽度剪枝>深度剪枝

从性能上看，稀疏剪枝无疑是王者。但性能的优势，却要以效率的牺牲为代价。

这正是实践中“鱼与熊掌”的困境。稀疏模型虽然参数量（非零权重）少了，但其不规则的稀疏结构，在通用硬件（如CPU或没有稀疏计算单元的AI加速器）上并不能带来实际的推理加速。研究中使用的Google TPU v4就无法从稀疏性中获益，导致稀疏模型的训练速度和密集模型几乎一样。

相比之下，结构化剪枝（尤其是深度剪枝）虽然在性能上损失最大，但它产生的是一个标准的、更小的密集模型。这种模型无需任何特殊硬件支持，就能在任何地方实现实打实的内存节省和推理加速。

这就给实践者提出了一个明确的权衡：

追求极致性能：选择细粒度的稀疏剪枝，但需要确保部署环境有专门的硬件（如支持2:4稀疏的NVIDIA A100/H100 GPU）来发挥其效率优势。
追求通用效率：选择结构化剪枝，接受一定的性能损失，换取在各种硬件上都能生效的、可靠的效率提升。

而这篇论文的发现恰好点明了这里的矛盾：恰恰是在追求通用效率的结构化剪枝场景下，其性能优势最容易被“从头训练+海量数据”的模式所取代。

07 结论：一份给实践者的清晰指南

这项研究的价值，在于它超越了“剪枝好不好”的模糊讨论，为“何时选择剪枝、选择何种剪枝”提供了一份清晰、数据驱动的决策指南。

我们可以总结出两条非常实用的建议：

如果你的团队已经拥有一个强大的预训练大模型，但用于下游任务的训练/微调预算有限：那么，剪枝是你的不二之选。它能最高效地利用父模型的知识，让你在有限的Token预算内获得最强的小模型。这对于大多数资源不是无限的企业和研究团队来说，是一个极具价值的结论。
如果你的目标是训练一个标准架构的小模型，并且你拥有海量的训练数据预算：那么，从头训练是一个完全可行且有竞争力的选项。在这种情况下，你未必需要一个父模型作为“垫脚石”。

最终，这项工作将剪枝从一个单纯的“压缩工具”，提升到了一个与“训练范式”息息相关的战略选择层面。它告诉我们，大模型中蕴含的知识宝藏，可以通过不同的方式被继承和利用，而理解其中的边界和代价，正是我们在大模型时代“降本增效”的关键所在。小模型不一定要从头练！