模型压缩技术对于在资源受限设备上部署模型至关重要。本文介绍了三种关键压缩方法:模型量化、剪枝和蒸馏。量化通过降低权重和激活值的精度(如FP32到INT8)来减小模型大小和加速推理,包括训练后量化(PTQ)和量化感知训练(QAT)。剪枝通过移除不重要的权重或连接来精简模型,分为细粒度、向量、核和滤波器剪枝。蒸馏则是训练一个小模型模仿大模型的行为,通过学习大模型的概率分布(软标签)来提升小模型的泛化能力。这三种技术常联合使用,以实现极致的模型压缩效果。
1. 模型量化
定义:量化是指降低模型权重和激活值数值精度的过程。最常见的做法是从32位浮点数转换为8位整数(甚至更低)。
- 低精度模型表示模型权重数值格式为 FP16(半精度浮点)或者 INT8(8位的定点整数),但是目前低精度往往就指代 INT8。
- 常规精度模型则一般表示模型权重数值格式为 FP32(32位浮点,单精度)。
- 混合精度(Mixed precision)则在模型中同时使用 FP32 和 FP16 的权重数值格式。 FP16 减少了一半的内存大小,但有些参数或操作符必须采用 FP32 格式才能保持准确度。
比喻:让大学者从使用精确到小数点后8位的复杂计算,改为使用整数进行心算。他可能失去了小数点后的细微精度,但计算速度极大提升,而且需要的脑容量(内存)也更小了。
工作原理:
- FP32(32位浮点数)可以表示非常大范围且非常精确的数字,但占用空间大(4字节),计算慢。
- INT8(8位整数)只能表示256个离散的整数值,占用空间小(1字节),计算飞快。
- 量化的核心就是找到一个好的映射关系,将FP32的数值范围尽可能无损地“挤压”到INT8的范围内。
实现量化主要有两种路径:训练后量化(Post-Training Quantization,PTQ)与量化感知训练(Quantization-Aware Training,QAT),区别在于何时引入量化。PTQ
核心逻辑是先将模型用高精度(FP32)完整地训练好,然后在部署前,直接对训练好的模型进行压缩量化。为了得到权重和激活值的分布范围,需要使用一小部分校准数据,根据统计结果,直接将高精度数值映射为低精度数值。
PTQ方法极其简单、快速,无需重新训练,不需要庞大的训练数据集,是模型部署时的首选方案。不过PTQ方法精度风险较高,量化可能会导致性能下降,特别是对于小模型或复杂的任务。
QAT
核心逻辑是在模型的训练过程中,就模拟量化带来的影响,让模型学会适应低精度环境。QAT方法在训练时,会在计算图中插入“伪量化节点”,这些节点在前向传播时,会模拟数值被量化(舍入)后的误差;在反向传播时,使用Straight-Through Estimator(STE)近似估计量化误差的梯度(round不可导),梯度绕过量化节点传递给量化前的节点。模型会在训练中不断调整参数,以适应这种“噪声”,最终得到一个对量化鲁棒的模型。
QAT方法得到的量化模型精度更高、更稳定,尤其在极低比特(如INT4以下)量化时,能显著减少精度损失。但QAT方法成本高昂,需要完整的训练过程,耗时长、计算资源消耗大,工程实现也更复杂。
Tips:实际项目中,可遵循“先PTQ,后QAT”的策略
主要好处:
- 显著减少模型大小:直接缩小约75%(从32位到8位)。
- 大幅加速推理:整数运算在CPU、DSP或专用硬件(如NPU)上比浮点运算快得多。
- 降低功耗:更小的内存访问和更简单的计算意味着更低的能耗。
**挑战:**精度可能会有轻微损失,但通过训练后量化 或 量化感知训练 技术,可以将损失降到最低。
简单来说,量化就是:“用更粗糙的数字来表示模型,换取速度和空间的巨大收益。”
2. 模型剪枝
定义:剪枝是指识别并移除模型中不重要的权重或连接的过程。
剪枝算法步骤:
1. 正常训练模型;2. 模型剪枝;3. 重新训练模型以上三个步骤反复迭代进行,直到模型精度达到目标,则停止训练。模型剪枝算法根据粒度的不同,可以粗分为4种粒度:
- 细粒度剪枝(fine-grained):对连接或者神经元进行剪枝,它是粒度最小的剪枝。
- 向量剪枝(vector-level):它相对于细粒度剪枝粒度更大,属于对卷积核内部(intra-kernel)的剪枝。
- 核剪枝(kernel-level):去除某个卷积核,它将丢弃对输入通道中对应计算通道的响应。
- 滤波器剪枝(Filter-level):对整个卷积核组进行剪枝,会造成推理过程中输出特征通道数的改变。
图片来源论文: Han et al. Learning both Weights and Connections for Efficient Neural Networks, NIPS 2015
比喻:让大学者忘掉那些冷僻、无用的知识,只保留核心和常用的知识。比如,他不需要记得全世界所有城市的电话号码,只需要记住常用联系人的即可。这样,他的大脑负担减轻了,反应速度也更快了。
工作原理:
- 评估网络中每个参数(权重)的重要性。最常用的标准是权重的绝对值大小(绝对值越小,贡献通常越小)。
- 将那些重要性低于某个阈值的权重置零(相当于从网络中移除连接)。
- 对剪枝后的模型进行微调,以恢复因剪枝而损失的精度。
- 迭代进行上述过程,最终得到一个稀疏化的模型(很多连接为零)。
主要好处:
- 减少模型大小:因为可以存储为稀疏矩阵格式,只存储非零值。
- 加速推理:跳过零权重的计算,减少计算量。
- 有时还能起到正则化效果,防止过拟合。
挑战:需要谨慎选择剪枝率和剪枝策略,否则会严重损害模型性能。现代的结构化剪枝(直接剪掉整个神经元或滤波器)比非结构化剪枝(剪掉单个权重)更受硬件欢迎。
简单来说,剪枝就是:“给模型做减法,剔除冗余部分,保留核心结构。”
3. 模型蒸馏
定义:蒸馏(全称知识蒸馏)是指训练一个小型模型(学生模型)去模仿一个更大、更精确的模型(教师模型)的行为的过程。
如何实现知识蒸馏? 知识蒸馏的标准训练设置包括:一个预训练的教师模型(在蒸馏过程中通常保持冻结)、一个较小的学生模型架构、一个包含真实标签的数据集。
与传统训练不同的是,学生模型使用一个组合损失函数进行训练。除了标准任务损失( )以外,还包含一个蒸馏损失( ),两个损失函数通过加权和进行组合:
α 是一个超参数,用于平衡模仿教师模型与匹配真实数据的重要性。
比喻:让大学者(教师模型)把他的知识精华和解题思路传授给他的学生(学生模型)。学生不像老师那样知识庞杂,但他学会了老师最核心的思维模式和解题技巧,因此能以更快的速度给出接近老师水平的答案。
工作原理:
- 有一个训练好的、性能强大的教师模型。
- 设计一个结构更小、更简单的学生模型。
关键点:训练学生模型时,目标不仅是匹配真实的标签(硬标签),更重要的是匹配教师模型输出的概率分布(软标签)。
- 硬标签:图片是“猫”[1, 0, 0]
- 软标签:教师模型输出可能是“猫:0.9, 狗:0.09, 狐狸:0.01”。这个软标签包含了丰富的“暗知识”,比如模型认为狗和狐狸与猫有某些相似性。学生模型通过学习这些软标签,能获得比只学硬标签更强大的泛化能力。
主要好处:
- 获得一个既小又快,但性能接近大模型的小模型。这是压缩技术的终极目标。
- 学生模型有时甚至能超越教师模型的性能,因为蒸馏过程是一种强大的正则化。
挑战:需要有一个预先训练好的强大教师模型,并且蒸馏过程本身也需要训练时间和计算资源。
简单来说,蒸馏就是:“师从大师,提炼精华,练就一身更精悍的本领。”
总结与对比
| 技术 | 核心思想 | 主要目标 | 好比是 |
|---|---|---|---|
| 量化 | 降低数值精度 | 减少内存占用,加速计算 | 将精算改为心算 |
| 剪枝 | 移除冗余参数 | 减少模型复杂度,实现稀疏化 | 给知识库做减法,忘掉无用知识 |
| 蒸馏 | 小模型模仿大模型 | 获得一个性能接近大模型的小模型 | 学生继承老师的知识和经验 |
量化适合 “降精度提效”,侧重硬件友好性;
剪枝适合 “删冗余精简”,侧重结构优化;
蒸馏适合 “小模型学知识”,侧重性能保留。
实际部署中,三者常联合使用以达到极致的压缩效果。例如:
先对一个大型教师模型进行蒸馏,训练出一个性能良好的小型学生模型。然后对这个学生模型进行剪枝,移除其中不重要的连接。最后对剪枝后的模型进行量化,将其转换为低精度格式。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。