news 2026/4/23 15:04:06

硬件有限,如何部署“大”模型?AMCT模型压缩工具3步解忧

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
硬件有限,如何部署“大”模型?AMCT模型压缩工具3步解忧

我们在谈论AI大模型时,一方面会为其在逻辑推理、问题回答等各种任务中的表现出色而惊叹,另一方面也会为其巨大存储和海量计算而“头疼”。模型尺寸的不断增长确实给模型部署带来了极大的挑战,动辄几十GB,上百GB甚至上千GB的存储量,昂贵的硬件资源需求不仅让普通用户难以企及,企业用户也常常面临挑战。

在保持模型能力的前提下,如何降低模型存储需求,如何降低模型计算时延,是模型开发者和性能优化专家研究的热点问题,而模型量化压缩优化是解决这些问题的最重要的手段之一。量化效果好不好,跟原始数据的分布紧密相关,如果原始数据中存在outlier离群值,直接量化往往无法兼顾所有数据,量化效果通常会比较差。量化压缩算法通过各种方式来调整数据分布或调整量化方式,来提升最终的量化效果。AWQ/GPTQ算法对模型权重进行压缩,在保持网络精度的同时,可以将模型权重压缩到4bit,相比BF16数据模型权重参数量降低75%;SmoothQuant对激活和权重都做压缩,通过硬件更高效的低比特矩阵乘运算,不仅拿到了内存收益,同时降低了端到端的时延,提升了系统吞吐。AMCT模型压缩工具,将这些算法集成到工具中,开发者拿来即用,可以满足仅权重量化,激活权重量化等不同场景的使用需求。

对模型优化的开发者来说,硬件资源通常比较有限,如何在有限的硬件资源中高效完成模型压缩的全过程,也是开发者重点关注的问题。AMCT提供的逐block量化的算法,将模型拆分成小的量化模块单元,每个量化模块都可以单独执行量化校准过程。这些量化模块可以分配在不同的NPU卡上并行执行,大大提升了开发效率;即使开发者只有一张NPU卡,通过分块执行的方式也可以完成DeepSeek-V3.2这种尺寸规模的模型量化。MoE模型因为每个专家在模型中热度不同,整网的量化校准需要很多量化校准数据才能覆盖全部专家,逐block量化对于提升MoE模型的量化效率特别有帮助。

此外,AMCT工具简单易用,它是基于PyTorch框架做模型压缩,开发者只需要调用2,3个简单的python接口就可以完成模型压缩。量化配置的方法也很灵活,开发者可自行修改量化配置文件,调整压缩策略,获取较优的压缩结果。

参照上图,通过3步完成模型“瘦身”:

1. 准备好量化配置,调用amct.quantize接口,将原始模型转换成量化校准模型。

2. 准备好校准数据集,对量化校准模型进行校准推理,得到量化参数。

3. 调用amct.convert接口,将量化模型转换成昇腾亲和的部署模型。

欢迎关注昇腾CANN公众号,及时获取直播时间与观看链接,相信通过这次直播,大家会对AMCT的使用有更深入的了解,也能够在今后的开发工作中充分发挥它们的强大威力,为昇腾芯片的应用开发带来更多的创新和突破!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:16:29

深入探讨LabVIEW与PLC数据通信的原理与实践:完整程序源码解析

labview和PLC数据通信 程序源码搞工控的兄弟应该都遇到过LabVIEW和PLC打交道的需求吧?这俩设备就像两个说不同方言的老铁,想让他俩唠起来还真得花点心思。今天咱们直接上干货,聊聊怎么让LabVIEW和PLC实现基情四射的数据交互。先说个最简单的…

作者头像 李华
网站建设 2026/4/23 12:17:18

基于LabVIEW的双通道波形发生器:探索信号的多彩世界

基于labview的双通道波形发生器【报告】可以生成正弦波、方波、三角波、锯齿波、白噪声等基本波形,可将两个信号在同一个波形图上显示 代码是成品在电子工程和测试测量领域,波形发生器是极为重要的工具。今天咱就聊聊基于LabVIEW打造的双通道波形发生器&…

作者头像 李华
网站建设 2026/4/7 10:23:37

8个降AI率工具推荐!继续教育学生必看

8个降AI率工具推荐!继续教育学生必看 AI降重工具:让论文更自然,让学术更真实 在当前的学术环境中,越来越多的高校和研究机构开始采用AIGC检测系统来评估论文的原创性。对于继续教育的学生来说,如何有效降低论文的AI痕…

作者头像 李华
网站建设 2026/4/23 5:05:27

威力加强版数字人,直接封神!

友友们,之前给大家介绍过数字人领域的新晋王者——InfiniteTalk,有超稳定的性能、生成无限时长等功能。今天带来InfiniteTalk V2威力加强版,相较于同类产品普遍存在的卡顿、时长限制及付费门槛等问题,它实现了"免费无限时长生…

作者头像 李华
网站建设 2026/4/17 14:17:30

路由策略和策略路由区别是什么

在网络配置中,“路由策略”(Route-Policy)与“策略路由”(Policy-Based Routing, PBR)是两个高频出现但易混淆的概念。二者均用于优化网络流量转发,但核心逻辑、作用对象、应用场景存在本质差异。本文从多维…

作者头像 李华
网站建设 2026/4/23 12:35:29

CentOS 7 安装 docker 教程

检查系统版本 查看 CentOS 版本 cat /etc/centos-release 查看内核版本 uname -r 只要是 3.10.x 及以上即可 卸载旧版本 Docker yum remove -y docker \ docker-client \ docker-client-latest \ docker-common \ docker-latest \ docker-latest-logrotate \ docker-logro…

作者头像 李华