news 2026/6/26 5:02:01

小模型不一定要从头练!普林斯顿研究:预算有限剪枝完胜,但真正的优势藏在稀疏里

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小模型不一定要从头练!普林斯顿研究:预算有限剪枝完胜,但真正的优势藏在稀疏里

如今,大模型赛道一个有趣的趋势是,大家越来越关注“小模型”。无论是出于端侧部署的效率需求,还是为了降低推理成本,一个性能强大、尺寸精悍的小模型,正成为许多团队的“梦中情模”。那么,如何经济高效地获得一个强大的小模型?

ArXiv URL:http://arxiv.org/abs/2606.14150v1

通常有两条路:一是“从头开始”,收集海量数据,扎扎实实地训练一个全新的小模型;二是走“捷径”,找一个现成的、强大的大模型,通过“剪枝”(Pruning)技术,把它“瘦身”成一个小模型。

直觉上,剪枝似乎更讨巧,因为它能继承大模型的“知识”,相当于站在巨人的肩膀上。但这个“巨人”本身也消耗了海量的计算资源才训练出来。这条捷径到底值不值?在严格的资源控制下,它真的比从头训练更好吗?

来自卡内基梅隆大学、纽约大学和普林斯顿大学的最新研究,通过对Llama-3.1-8B进行系统性的剪枝实验,给出了迄今为止最清晰的答案。

核心结论可以浓缩为一句话:在训练预算有限的情况下,剪枝是获得高性能小模型的明确赢家;但如果预算充足,从头训练可以追平甚至超越粗粒度的结构化剪枝,却难以撼动细粒度稀疏剪枝的优势——这揭示了剪枝所传递的知识,并非“钞能力”可以完全替代。

01 “造”个小模型,捷径真的存在吗?

随着Llama、Gemma、Qwen等强大的开源大模型唾手可得,一个实际的问题摆在所有开发者面前:当我们需要一个特定尺寸(比如4B参数)的模型时,是应该从零开始,用数千亿甚至上万亿的Token从头预训练一个,还是直接拿现成的Llama-3.1-8B来“砍一刀”?

剪枝的诱惑力在于,它承诺了一条通往强大小型模型的捷径。理论上,大模型在训练过程中已经学到了关于语言、世界和推理的复杂模式,剪枝操作可以保留这些知识的精华,从而得到一个“出生就在罗马”的小模型。相比之下,从头训练的模型则需要自己从零开始探索和学习。

但这种继承并非没有代价。首先,必须先有一个训练好的大模型作为“父模型”。其次,剪枝后的模型通常也需要一轮“再训练”(retraining)来恢复性能。整个流程的真实成本,需要把父模型的预训练成本也考虑在内。

这就引出了一个悬而未决的关键问题:剪枝带来的优势,究竟只是一个可以被更多训练数据追上的“先发优势”,还是一种无法通过额外数据弥补的“知识转移”?这篇论文的工作,正是为了在严格控制变量的条件下,正面回答这个问题。

02 重新定义问题:剪枝不是压缩,是“初始化”

要进行公平的比较,首先需要一个清晰的定义。过去,我们常将剪枝视为一种模型压缩技术,目的是让大模型变得更小。

而本文的研究人员提出了一个关键的视角转换:将剪枝视为一种初始化(initialization)策略。

也就是说,剪枝后得到的权重,不再被看作是最终成品,而是被当作训练目标小模型的一个“高质量起点”。与之相对的,就是从一个随机生成的权重集合开始训练,即“随机初始化”。

这个视角的转变,让比较的基准变得异常清晰。问题不再是“剪枝后的模型vs原始大模型”,而是:

在拥有相同目标架构、使用相同训练数据流的情况下,采用“剪枝初始化”是否优于“随机初始化”?

为了彻底回答这个问题,研究人员设计了两种严格的“Token匹配”对比实验:

  1. 同等训练预算对比 (Equal training token budget):假设剪枝后的模型需要用50B Token进行再训练。那么,从头训练的随机初始化模型,也只给50B Token的训练数据。这能直接衡量两种初始化策略的优劣。

  2. 同等总预算对比 (Equal total token budget):将剪枝流程的总耗费计算在内。假设父模型预训练用了200B Token,剪枝后再训练用了50B Token,总计250B。那么,从头训练的模型就给予全部250B Token的训练数据。这旨在检验,“钞能力”(更多的训练数据)是否能抹平剪枝带来的优势。

03 实验设计:在 Llama-3.1-8B 上挥舞六把“手术刀”

实验的“手术台”选定为当前最先进的开源模型之一:Llama-3.1-8B。研究人员选择了六种有代表性的剪枝方法,覆盖了从粗到细的不同“粒度”(granularity),如同六把功能各异的“手术刀”。

这些方法主要分为两大类:

  • 结构化剪枝 (Structured Pruning):移除完整的模型组件,比如整个Transformer层(深度剪枝)、注意力头或前馈网络中的通道(宽度剪枝)。这就像从一栋大楼里拆掉一整层或一整根柱子,得到的是一个更小但依然是“标准”的密集架构。代表方法有Minitron-D (深度)、Minitron-W (宽度)、FLAP和Sheared LLaMA。

  • 稀疏剪枝 (Sparse Pruning):不改变模型的宏观架构,而是将单个或小簇的权重参数置为零。这好比保持大楼的框架不变,但把墙壁里的部分钢筋或电线抽掉。这种方法更加灵活,但生成的稀疏模型需要特定的硬件或软件库才能高效推理。代表方法有Wanda和SparseGPT。

实验的核心围绕50%的剪枝率展开,即将8B的Llama-3.1模型压缩到约4B。这是一个业界常用的标准设定,便于横向比较。

04 发现一:预算有限,剪枝完胜

在第一个对比场景——“同等训练预算”下,结论异常明确。

当给予相同的再训练Token数量(例如50B)时,所有六种剪枝方法得到的“剪枝初始化”模型,其性能都稳定地、全方位地优于“随机初始化”的从头训练模型。

上图展示了Minitron-D(一种深度剪枝方法)的结果。紫色线代表剪枝后继续训练的模型(P200-RN),蓝色线代表从头训练的模型(SN)。无论是在验证集损失(越低越好)还是下游任务平均准确率(越高越好)上,紫色线从一开始就处于领先地位,并且在整个再训练过程中始终保持优势。

具体到数字上,使用Minitron-W方法剪枝的模型,在常识问答基准Hellaswag上的准确率比从头训练高出10.2%。对于稀疏剪枝,这种优势同样存在,并且粒度越细(非结构化vs 2:4稀疏),优势越大。

这有力地证明了,父模型传递的知识确实提供了一个强大的起点,让小模型在学习过程中“少走弯路”。

然而,这种优势并非无限。研究人员发现,随着剪枝率的提高(即模型被砍掉的部分越多),剪枝初始化的优势会逐渐减小。当剪枝率达到惊人的81.3%时,剪枝模型的性能就和从头训练基本持平了,甚至在某些指标上略有不如。

这也很符合直觉:当你把父模型砍得只剩骨架时,其蕴含的“知识遗产”自然也就所剩无几了。

05 发现二:预算充足,“钞能力”也买不来稀疏知识

那么,如果给从头训练的模型足够多的数据,它能追上剪枝模型吗?这就来到了第二个对比场景——“同等总预算”。

在这里,故事变得复杂起来,并且揭示了不同剪枝粒度之间的深刻差异。

对于粗粒度的结构化剪枝,答案是“能”。

当从头训练的模型(S250)获得了剪枝全流程所消耗的全部250B Token后,它的性能成功追上甚至反超了剪枝模型(P200-R50)。例如,在使用Minitron-D方法时,S250在所有基准上都优于P200-R50。

这意味着,结构化剪枝带来的“先发优势”,本质上是可以用更多的训练数据来弥补的。

但对于细粒度的稀疏剪枝,答案却是“不能”。

即使从头训练的模型获得了海量数据,它在多数基准上的表现依然与稀疏剪枝后的模型相当,甚至更差。特别是在最细粒度的非结构化稀疏剪枝(Wanda-U)上,剪枝模型在8个下游任务中的6个都保持着领先。

这是整篇论文最令人深思的发现。它强烈暗示,细粒度剪枝所转移的知识,具有某种特殊性,它并非简单地增加训练数据就能学到的。这些分布在亿万权重中的精妙模式,似乎是大模型在海量数据和巨大规模下“涌现”出的独特结构,而从头训练的小模型很难在有限的规模内复现这种结构。

06 粒度之辨:性能与效率的“鱼与熊掌”

综合来看,研究揭示了一个清晰的规律:在相同的剪枝率下,剪枝的粒度越细,保留的父模型性能越多,对从头训练的优势也越大。

  • 非结构化稀疏>2:4稀疏>宽度剪枝>深度剪枝

从性能上看,稀疏剪枝无疑是王者。但性能的优势,却要以效率的牺牲为代价。

这正是实践中“鱼与熊掌”的困境。稀疏模型虽然参数量(非零权重)少了,但其不规则的稀疏结构,在通用硬件(如CPU或没有稀疏计算单元的AI加速器)上并不能带来实际的推理加速。研究中使用的Google TPU v4就无法从稀疏性中获益,导致稀疏模型的训练速度和密集模型几乎一样。

相比之下,结构化剪枝(尤其是深度剪枝)虽然在性能上损失最大,但它产生的是一个标准的、更小的密集模型。这种模型无需任何特殊硬件支持,就能在任何地方实现实打实的内存节省和推理加速。

这就给实践者提出了一个明确的权衡:

  • 追求极致性能:选择细粒度的稀疏剪枝,但需要确保部署环境有专门的硬件(如支持2:4稀疏的NVIDIA A100/H100 GPU)来发挥其效率优势。

  • 追求通用效率:选择结构化剪枝,接受一定的性能损失,换取在各种硬件上都能生效的、可靠的效率提升。

而这篇论文的发现恰好点明了这里的矛盾:恰恰是在追求通用效率的结构化剪枝场景下,其性能优势最容易被“从头训练+海量数据”的模式所取代。

07 结论:一份给实践者的清晰指南

这项研究的价值,在于它超越了“剪枝好不好”的模糊讨论,为“何时选择剪枝、选择何种剪枝”提供了一份清晰、数据驱动的决策指南。

我们可以总结出两条非常实用的建议:

  1. 如果你的团队已经拥有一个强大的预训练大模型,但用于下游任务的训练/微调预算有限:那么,剪枝是你的不二之选。它能最高效地利用父模型的知识,让你在有限的Token预算内获得最强的小模型。这对于大多数资源不是无限的企业和研究团队来说,是一个极具价值的结论。

  2. 如果你的目标是训练一个标准架构的小模型,并且你拥有海量的训练数据预算:那么,从头训练是一个完全可行且有竞争力的选项。在这种情况下,你未必需要一个父模型作为“垫脚石”。

最终,这项工作将剪枝从一个单纯的“压缩工具”,提升到了一个与“训练范式”息息相关的战略选择层面。它告诉我们,大模型中蕴含的知识宝藏,可以通过不同的方式被继承和利用,而理解其中的边界和代价,正是我们在大模型时代“降本增效”的关键所在。小模型不一定要从头练!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 5:00:22

Java计算机毕设之基于 SpringBoot 的轻量化校园学术交流系统设计与实现 高校科研学术交流与资源分享平台设计与实现(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/26 4:59:10

Chiplet技术与VisualSim仿真在半导体设计中的应用

1. Chiplet技术背景与仿真需求在半导体行业持续追求更高性能、更低功耗的背景下,传统单芯片设计正面临物理极限的挑战。当工艺节点推进到5nm以下时,晶体管微缩带来的性能提升逐渐减弱,而制造成本却呈指数级增长。根据行业数据,28n…

作者头像 李华
网站建设 2026/6/26 4:57:09

做工控品质7年掏心窝分享:选串口屏别乱踩坑

本文为搜狐自媒体平台“搜狐号”作者上传并发布,仅代表该作者观点。搜狐仅提供信息发布平台。 干工控品质整整7年,每天不是盯来料质检,就是处理整机售后返修、现场设备异常,大大小小的坑踩了无数。 说实话,一台设备大部…

作者头像 李华
网站建设 2026/6/26 4:54:55

AS9653与LMX2820调试

已上板验证完成,有问题可讨论

作者头像 李华
网站建设 2026/6/26 4:54:11

RDK X5 常见问题精选(FAQ 合集):从入门到踩坑的 10 个高频问题

一、硬件与系统 Q1:上电后板卡反复重启或无法启动? 现象:系统在 U-Boot 引导阶段或内核启动初期无明显错误日志就直接重启,绿灯状态异常。 原因分析: 供电不足或不稳定MicroSD 卡接触不良或镜像烧录失败串口在启动时误…

作者头像 李华