AMD MI325X加速器与大模型推理优化实践-深圳市維司達科技有限公司

1. AMD MI325X硬件平台与大模型推理特性解析

AMD MI325X作为专为AI负载设计的加速器，其硬件架构对大模型推理性能有着决定性影响。该平台采用CDNA 3架构，单卡配备256GB HBM3e内存和6.0TB/s内存带宽，8卡集群可提供2TB聚合内存和48TB/s总带宽。这种配置特别适合内存密集型的自回归推理任务，因为大模型推理的本质特征就是"内存墙"问题——计算单元往往处于饥饿状态，等待内存带宽供给数据。

在实际测试中，我们发现即使是1T参数的Kimi-K2.5模型，在INT4量化后也能完全驻留在4张MI325X的显存中（约145GiB/GPU），这得益于三个关键设计：

高密度内存封装：通过3D堆叠技术实现的HBM3e内存，提供远超传统GDDR的带宽和容量
统一内存架构：CPU与GPU共享地址空间，避免了PCIe数据传输开销
智能缓存层次：L1/L2缓存针对注意力机制的访问模式进行了优化

实测数据显示，在运行Llama-3.1-405B时，GPU硬件利用率高达99.5%，但FLOPs利用率仅14%，这印证了推理任务的内存带宽受限特性。此时增加更多计算单元并不会提升性能，优化重点应放在减少数据移动上。

2. 架构感知优化的核心策略

2.1 注意力机制差异化配置

不同注意力机制需要完全不同的内存访问模式。我们的基准测试涵盖了三种典型架构：

模型类型	注意力机制	KV缓存特点	最优块大小	支持offload
Llama-3.1-405B	GQA	标准多头注意力	128	是
DeepSeek V3.2	MLA	压缩的潜在KV缓存	1	否
Qwen3-VL-235B	GQA+MoE	标准多头注意力+专家路由	64	是

特别是MLA模型需要特殊处理：

# MLA模型必须使用的启动参数 --block-size 1 --disable-log-stats --no-enable-eager-mode

这是因为MLA的压缩KV缓存格式与传统的分块管理不兼容，强制使用大块会导致HSA内存访问错误。

2.2 AITER加速库的精准应用

AMD AI Tensor Engine (AITER) 对不同类型的模型加速效果差异显著：

MoE模型：AITER通过优化专家路由内核，使DeepSeek V3.2的吞吐量从基准5,786 tok/s提升到15,343 tok/s（2.65倍加速）
MLA注意力：必须启用AITER才能获得可用性能，Triton回退路径的吞吐量不足生产需求
标准GQA：仅带来3-10%的提升，但会增加性能波动（CoV从0.4%升至4.7%）

配置示例：

# 环境变量配置最佳实践 os.environ["VLLM_ROCM_USE_AITER"] = "1" # 全局启用 os.environ["AITER_ENABLE_VSKIP"] = "0" # MI325X必须禁用VSKIP os.environ["AITER_MLA_WORKGROUP"] = "64" # 优化wavefront调度

2.3 量化策略与内存管理

FP8量化可减少50%的内存占用，但对不同模型架构影响不同：

密集模型：Llama-3.1-405B从估计的224GiB降至112GiB，使得单节点部署成为可能
MoE模型：DeepSeek V3.2从180GiB降至83GiB，节省幅度较小因为专家参数本就稀疏
视觉模型：Qwen3-VL的ViT部分无法使用FP8，需保持BF16精度

内存占用计算公式：

总显存需求 = (参数量 × 每参数字节数) / TP度 + KV缓存 + 通信缓冲区

其中FP8每参数约1.02字节（含scale factor），INT4 QAT约0.56字节。实测发现嵌入层跨TP rank的重复存储会增加10-15%额外开销。

3. KV缓存管理的艺术

3.1 工作负载特性分析

文本和视觉工作负载对KV缓存的需求截然不同：

文本工作负载：输入500token+输出100token，KV缓存约3.5MB/请求
视觉工作负载：含1张图片(224x224)时，KV缓存暴增至28MB/请求

3.2 优化策略对比

策略	适用模型	吞吐提升	副作用
FP8 KV缓存	Llama-3.1	22%	需重校准模型
原生offloading	Qwen3-VL	68%	增加首token延迟
块稀疏注意力	DeepSeek V3.2	N/A	当前ROCm不支持
MLA压缩格式	Kimi-K2.5	41%	限制TP度为4

关键配置示例：

# 对GQA模型有效的KV缓存优化组合 --kv-cache-dtype fp8 --kv-offloading-backend native --offload-percent 0.4

4. 生产环境部署实战

4.1 并发控制与饱和点

所有模型在500并发请求时达到吞吐饱和，但不同工作负载表现不同：

短序列(500/100)：饱和点500并发，Llama-3.1达15,944 tok/s
长序列(2048/512)：饱和点降至150-200并发
视觉混合：Qwen3-VL保持线性扩展至300并发

实际部署时应实现动态并发控制：

def adaptive_concurrency(current_latency): if current_latency > SLA * 0.8: return max(1, current_concurrency * 0.9) elif utilization < 0.7: return min(1000, current_concurrency * 1.1)

4.2 温度与功耗管理

在Kimi-K2.5负载下观测到的典型功耗特征：

指标	活跃GPU(4)	闲置GPU(4)
平均功耗	662W	118W
峰值结温	76°C	-
HBM3e温度	66°C	-
计算利用率	1.1%	0%

这表明：

闲置GPU仍消耗约15%的系统功率
温度远低于thermal throttle阈值(95°C)
可考虑通过ROCm-SMI实现动态调频

5. 性能瓶颈深度分析

5.1 内存带宽与计算利用率

各模型在峰值吞吐时的计算利用率：

模型	活跃参数	精度	利用率
Llama-3.1-405B	405B	FP8	14.2%
DeepSeek V3.2	37B	FP8	0.4%
Qwen3-VL-235B	22B	BF16	3.0%
Kimi-K2.5	32B	INT4	1.1%

这个数据验证了：

推理完全受限于内存带宽
MoE模型的稀疏性带来显著优势
FP8比INT4更能有效利用硬件

5.2 架构选择的影响

对比不同架构在文本工作负载下的表现：

密集+GQA：405B活跃参数 → 15,944 tok/s
MoE+MLA：37B活跃参数 → 15,343 tok/s

这表明：

活跃参数减少90%但性能相当
内存带宽节省被MLA的计算开销部分抵消
专家路由引入约7%的额外延迟

6. 终极配置建议

6.1 模型特定配置模板

Llama-3.1-405B (密集+GQA)

deepspeed --num_gpus 8 \ --module vllm.entrypoints.api_server \ --model meta-llama/3.1-405B \ --tensor-parallel-size 8 \ --dtype fp8 \ --kv-cache-dtype fp8 \ --block-size 128 \ --max-num-batched-tokens 240000 \ --max-num-seqs 500

DeepSeek V3.2 (MoE+MLA)

VLLM_ROCM_USE_AITER=1 AITER_ENABLE_VSKIP=0 \ deepspeed --num_gpus 8 \ --module vllm.entrypoints.api_server \ --model deepseek-ai/v3.2 \ --tensor-parallel-size 8 \ --dtype fp8 \ --block-size 1 \ --max-num-batched-tokens 120000 \ --max-num-seqs 300