news 2026/4/23 19:22:45

MIT:LLM自适应量化策略

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
MIT:LLM自适应量化策略

📖标题:Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling
🌐来源:arXiv, 2512.02010

🌟摘要

随着大型语言模型的增长,NVFP4 等低精度数值格式因其提供的速度和内存优势而变得越来越流行。然而,为了用NVFP4加速计算,前向传递中的所有矩阵乘法操作数-权重和激活,后向传递中的权重、激活和梯度必须量化为NVFP4,通常会导致训练过程中的发散和推理过程中的性能下降。为了解决这个问题,在这项工作中,我们介绍了Four Over Six ,这是对 NVFP4 量化算法的修改,该算法评估每个块的两个潜在比例因子。与整数格式不同,FP4 等浮点格式在每个块的接近最大值上具有最大的量化误差,我们发现这主要负责下游性能下降。我们发现,对于某些块,缩放到较小的 FP4 值会使可表示值的分布更加均匀,提高了接近最大值的表示。重要的是,4/6 可以在 NVIDIA Blackwell GPU 上实现,这使得在使用 NVFP4 训练 LLM 时可以使用是可行的。在 Transformer 和混合模型架构的预训练实验中,我们发现 4/6 在某些情况下可以防止分歧,与使用当前最先进的 NVFP4 训练配方训练的模型相比,将训练损失显着更接近 BF16。我们还发现 4/6 可以很容易地合并到许多不同的训练后量化方法中,并且通常可以提高下游精度。我们希望这激发了未来使用 NVFP4 训练模型和部署模型的工作。项目在https://github.com/mit-han-lab/fouroversix

🛎️文章简介

🔸研究问题:如何通过自适应块缩放来提高NVFP4量化的精度?
🔸主要贡献:论文提出了一种新的量化方法Four Over Six,通过自适应缩放实现了NVFP4量化的准确性提升,并减少了计算开销。

📝重点思路

🔸引入了Four Over Six方法,该方法在处理量化时允许块使用不同的缩放值(4或6),以更准确地表示几乎最大的值。
🔸在预训练和后训练量化过程中,采用了基于均方误差(MSE)的缩放选择规则,比较不同缩放条件下的量化效果,以选择最优缩放策略。
🔸利用NVIDIA Blackwell GPU的PTX指令高效实现Four Over Six,确保在保持高性能的同时,量化过程的开销在合理范围内。

🔎分析总结

🔸Four Over Six显著减少了大型值的量化误差,提高了多种模型架构的预训练性能,解决了目前NVFP4训练过程中出现的发散问题。
🔸在后训练量化中,Four Over Six与现有方法(如GPTQ、AWQ、SmoothQuant)结合使用,可广泛提升不同任务的模型性能,尤其在Word Perplexity指标上显示出较大改善。
🔸引入Four Over Six的模型在各类任务上表现出更接近于高精度模型的效果,尤其在处理具有极大值的块时,展现出更佳的量化精度。

💡个人观点

论文的创新点在于自适应量化策略,使得NVFP4量化在保留快速计算优势的同时,也能显著提升模型的准确性。

🧩附录


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:11:28

企业级SIP通信系统实战:7个高可用架构设计技巧

企业级SIP通信系统实战:7个高可用架构设计技巧 【免费下载链接】sip.js Session Initiation Protocol for node.js 项目地址: https://gitcode.com/gh_mirrors/sip/sip.js sip.js是基于RFC3261规范实现的轻量级SIP协议栈,专为Node.js环境设计&…

作者头像 李华
网站建设 2026/4/23 11:11:45

【dz-933】智能消毒灯

基于单片机的智能消毒灯设计 摘 要:随着人们日益增长的美好生活需要,环境卫生和健康的关注越来越高。然而,由于公共场所和家居环境人员流动的问题,紫外线杀菌技术需要安全保障,这导致消毒灯在各种场所中的安全问题备受…

作者头像 李华
网站建设 2026/4/23 12:36:25

3个关键步骤:如何为Android应用构建可靠的离线功能

3个关键步骤:如何为Android应用构建可靠的离线功能 【免费下载链接】PocketHub PocketHub Android App 项目地址: https://gitcode.com/gh_mirrors/po/PocketHub 在移动应用开发中,离线功能已成为提升用户体验的重要环节。以PocketHub Android应用…

作者头像 李华
网站建设 2026/4/22 13:55:54

人脸识别系统快速上手:零基础5分钟搞定全流程

还在为人脸识别技术的高门槛发愁吗?今天咱们就来手把手教你用CompreFace这个免费开源的人脸识别系统,简单几步就能搭建属于自己的识别平台!🚀 无论你是完全没接触过AI的小白,还是想要快速验证想法的开发者,…

作者头像 李华
网站建设 2026/4/23 12:10:06

DeepBI:3步实现零代码AI数据分析的完整指南

DeepBI:3步实现零代码AI数据分析的完整指南 【免费下载链接】DeepBI 项目地址: https://gitcode.com/gh_mirrors/de/DeepBI DeepBI是一款革命性的AI原生数据分析平台,通过自然语言对话技术让数据分析变得简单直观。无论你是企业管理者还是业务人…

作者头像 李华