标签:#LLM #Quantization #AWQ #GPTQ #CUDA #Inference
🧮 前言:显存的数学题
为什么我们需要量化?让我们做个简单的算术。
- FP16 (16-bit Floating Point): 每个参数占 2 Bytes。
- INT4 (4-bit Integer): 每个参数占 0.5 Bytes。
对于一个70B (700亿参数)的模型:
- FP16 显存需求: GB
- INT4 显存需求: GB
结论:量化是让大模型走入寻常百姓家的唯一路径。虽然单卡 3090 (24GB) 跑 70B 4-bit 仍需 CPU 卸载(速度慢),但它完美适配了Yi-34B(约 18GB) 或Qwen-1.5-32B,让这些强大的模型在单卡上健步如飞。
💡 一、 GPTQ:数学家的暴力美学
GPTQ (Generative Pre-trained Transformer Quantization)是基于 OBS (Optimal Brain Surgeon) 理论的量化方法。<