别把 QLoRA 当成 LoRA 的自动升级：我在 RTX 3090 上把同一个 0.6B 模型按全参、LoRA、QLoRA 跑了一遍，真正省掉的是这两层内存-深圳市維司達科技有限公司

别把 QLoRA 当成 LoRA 的自动升级：我在 RTX 3090 上把同一个 0.6B 模型按全参、LoRA、QLoRA 跑了一遍，真正省掉的是这两层内存

很多人第一次做大模型微调，会把 LoRA 和 QLoRA 理解成一条顺滑升级链：先学 LoRA，不够省显存时再“切到 4bit 的 LoRA”。可一到项目里，问题马上就会问歪。比如同样都只训练 adapter，为什么 LoRA 和 QLoRA 的显存差距还能这么大？再比如明明上了 4bit，为什么训练时显存没有直接变成四分之一？

我在一张 RTX 3090 上，把同一个Qwen/Qwen3-0.6B模型按全参数 BF16、LoRA + BF16 底座、QLoRA + 4bit 底座三种方式各跑了一次最小单步训练。结果很直接：LoRA 主要省的是“训练态内存”，QLoRA 额外省的是“底座权重加载内存”；但激活、临时 buffer、LoRA 自己的参数和一部分训练开销，并不会因为你把底座量化到 4bit 就一起线性缩小。

如果你最近正准备在 24GB 显存上做 SFT，或者你已经在 LLaMA-Factory / PEFT / TRL 的参数堆里看花了眼，这篇文章最值得你带走的不是“哪个更高级”，而是下面这句话：LoRA 和 QLoRA 省的不是同一层成本，问错成本层，选型就会错。

1. 先把定义掰直：LoRA 省的是可训练层，QLoRA 省的是底座权重<

别再死记硬背了！用‘快递’和‘电话’的比喻，5分钟搞懂TCP/IP协议栈

快递员与接线员：用生活场景拆解TCP/IP协议栈的奥秘想象一下，你正在网购一件心仪已久的商品。点击"下单"按钮后，这件商品是如何从商家的仓库跨越千山万水来到你手中的？这个过程与计算机网络中数据的传输惊人地相似——…

李华

从高德、百度地图下载POI数据？手把手教你用Python+ArcGIS搞定GCJ02/BD09坐标纠偏

从高德、百度地图下载POI数据？手把手教你用PythonArcGIS搞定GCJ02/BD09坐标纠偏当你在高德地图上搜索"星巴克"，轻松获取了全市50家门店的经纬度坐标；或是从百度地图API批量下载了5000个餐饮店铺位置数据时，可能还没意识…

李华

AISMM认证体系全解析，深度拆解动态可信度评分DTSv3.2算法与实时对抗检测阈值设定逻辑

更多请点击： https://intelliparadigm.com 第一章：AISMM认证体系的演进脉络与战略定位 AISMM（Artificial Intelligence Security Maturity Model）认证体系并非一蹴而就的技术标准，而是伴随AI系统安全治理需求升级、监…

李华

5分钟搭建专属视频会议系统：Nettu Meet开源协作平台完整部署指南

5分钟搭建专属视频会议系统：Nettu Meet开源协作平台完整部署指南【免费下载链接】nettu-meet Open source video conferencing system for tutors. 项目地址: https://gitcode.com/gh_mirrors/ne/nettu-meet 在远程协作成为工作学习新常态的今天&#xff0c…

李华

Windows 10系统优化终极指南：如何用Windows10Debloater一键清理预装垃圾应用

Windows 10系统优化终极指南：如何用Windows10Debloater一键清理预装垃圾应用【免费下载链接】Windows10Debloater Script to remove Windows 10 bloatware. 项目地址: https://gitcode.com/gh_mirrors/wi/Windows10Debloater 你是否曾为Windows 10系统中那些…

李华