DeepSpeed-Ulysses 实战：在 8×A100 上把 176B 模型压缩到 24GB 显存-深圳市維司達科技有限公司

DeepSpeed-Ulysses 实战：在 8×A100 上把 176B 模型压缩到 24GB 显存

引言：大模型训练的内存困境

近年来，随着 Transformer 架构的崛起，大语言模型的参数量呈现指数级增长。从 GPT-3 的 1750 亿参数到最新的万亿级模型，这种增长带来了性能的突破，但也带来了前所未有的计算挑战。以 1760 亿参数的模型为例，仅模型参数就需要约352 GB的 FP16 存储（每个参数 2 字节），这远远超过了单张 A100 80GB 显卡的容量。

传统的并行策略如数据并行、流水线并行和模型并行各有局限。而DeepSpeed-Ulysses作为 DeepSpeed 框架中的一种创新性序列并行技术，结合 ZeRO 优化器，能够在多 GPU 上高效地分割和处理超长序列，显著降低显存开销。本文将深入解析其原理，并展示如何在 8 张 A100 显卡上，将原本需要数百 GB 显存的 176B 模型训练压缩到 24GB 显存以内。

一、DeepSpeed-Ulysses 技术原理深度解析

1.1 传统并行策略的瓶颈

在大型模型训练中，我们通常面临两个维度的“巨大”：

参数巨大：通过 ZeRO 优化器分片（ZeRO-3）可以有效解决，将优化器状态、梯度和参数分布到各卡。
序列巨大：当序列长度（如达到 32K 或更长）时，注意力机制中的激活值显存占用（O(L²)）成为新瓶颈。单纯的张量并行（TP）会在通信开销和计算效率上遇到瓶颈。

1.2 Ulysses 的核心思想：序列并行

Ulysses 的核心创新在于沿序列维度（Sequence Dimension）进行并行计算，它将超长的输入序列分割成多个子序列块，分发到不同的处理器组（GPU）上。每个 GPU 仅计算本地子序列的注意力输出，然后通过高效的all-to-all 通信操作，全局聚合所有 GPU 的信息，从而重建完整的序列输出。

其关键优势在于：

显存节约：注意力计算中的键（Key）和值（Value）张量在各卡本地维护，显著降低了激活值显存。
通信高效：使用 all-to-all 通信模式，避免了传统模型并行中大量的点对点通信，通信量可控且均衡。
计算完备：最终能获得与未分割时完全相同的数学结果。

二、实战环境搭建与配置

2.1 硬件与软件环境

硬件：8 台 NVIDIA A100 80GB PCIe 服务器，通过高速 InfiniBand 互连。
软件：
- Python 3.9+, PyTorch 2.0+
- DeepSpeed (安装最新版本或特定版本，如 0.12.0+)
- CUDA 11.8

# 安装命令示例pipinstalltorch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pipinstalldeepspeed pipinstalltransformers

2.2 关键依赖：支持 Ulysses 的 Megatron-DeepSpeed

DeepSpeed-Ulysses 已集成在 Megatron-DeepSpeed 代码库中。

gitclone https://github.com/microsoft/Megatron-DeepSpeed.gitcdMegatron-DeepSpeed pipinstall-r requirements.txt

三、代码实现：配置与运行 176B 模型

3.1 模型架构定义 (config.json)

我们以类似 GPT-3 的 176B 模型为例。主要配置参数包括：

hidden_size: 12288
num_layers: 96
num_attention_heads: 96
max_position_embeddings: 32768 (序列长度 32K)
vocab_size: 50257

一个简化的配置示例如下（保存为176b_config.json）：

{"architectures":["GPT2Model"],"hidden_size":12288,"num_hidden_layers":96,"num_attention_heads":96,"max_position_embeddings":32768,"vocab_size":50257,"torch_dtype":"float16","seq_parallel":true,"sequence_parallel_size":8}

3.2 DeepSpeed 配置文件 (ds_config_ulysses.json)

这是启用 Ulysses 和 ZeRO-3 的核心。重点在于设置sequence_parallel和zero_optimization。

{"train_batch_size":512,"train_micro_batch_size_per_gpu":1,"steps_per_print":10,"zero_optimization":{"stage":3,"contiguous_gradients":true,"stage3_max_live_parameters":1e9,"stage3_max_reuse_distance":1e9,"stage3_prefetch_bucket_size":5e8,"stage3_param_persistence_threshold":1e6,"reduce_bucket_size":1e8,"sub_group_size":1e9,"offload_optimizer":{"device":"cpu","pin_memory":true}},"fp16":{"enabled":true,"loss_scale_window":100},"gradient_clipping":1.0,"prescale_gradients":false,"wall_clock_breakdown":false,"sequence_parallel":{"enabled":true},"sparse_attention":{"mode":"fixed","block":16,"different_layout_per_head":true}}

3.3 训练脚本 (train_176b_ulysses.py)

以下是一个基于 Megatron-DeepSpeed API 的简化训练脚本，展示了如何整合配置。

importosimporttorchimportdeepspeedfrommegatronimportget_argsfrommegatron.initializeimportinitialize_megatronfrommegatron.modelimportGPTModelfrommegatron.trainingimportpretrainfrommegatron.utilsimportget_ltor_masks_and_position_ids# 必须通过命令行参数传递配置，这里在脚本中模拟核心逻辑defmodel_provider():"""构建模型"""args=get_args()model=GPTModel(num_tokentypes=0,parallel_output=True)returnmodeldefget_batch(data_iterator):"""生成一个虚拟批数据，实际应用需替换为真实数据加载器"""args=get_args()seq_length=args.seq_length batch_size=args.micro_batch_size*args.num_micro_batches# 构造随机数据 [batch, seq]tokens=torch.randint(0,args.padded_vocab_size,(batch_size,seq_length)).cuda()labels=torch.randint(0,args.padded_vocab_size,(batch_size,seq_length)).cuda()loss_mask=torch.ones(batch_size,seq_length,dtype=torch.float16).cuda()attention_mask=torch.tril(torch.ones((1,seq_length,seq_length))).expand(batch_size,-1,-1).cuda()returntokens,labels,loss_mask,attention_maskdefloss_func(loss_mask,output_tensor):"""简化损失计算"""losses=output_tensor.float()loss_mask=loss_mask.view(-1).float()loss=torch.sum(losses.view(-1)*loss_mask)/loss_mask.sum()returnlossif__name__=="__main__":# 在实际运行中，需要通过命令行传递所有参数。# 这里提供一个等效的命令行示例，用于启动训练：print(""" 实际启动命令示例（在 Megatron-DeepSpeed 目录下运行）： deepspeed --num_nodes=1 --num_gpus=8 train.py \ --tensor-model-parallel-size 2 \ --pipeline-model-parallel-size 2 \ --sequence-parallel-size 2 \ --num-layers 96 \ --hidden-size 12288 \ --num-attention-heads 96 \ --seq-length 32768 \ --max-position-embeddings 32768 \ --batch-size 1 \ --micro-batch-size 1 \ --deepspeed \ --deepspeed_config ds_config_ulysses.json \ --data-path your_data_path \ --tokenizer-type GPT2BPETokenizer \ --vocab-file vocab.json \ --merge-file merges.txt \ --split 98,2,0 \ --lr 1e-5 \ --train-iters 1000 \ --log-interval 1 """)# 注意：上述命令中，并行度设置解释：# tensor-model-parallel-size (TP) = 2 # 张量并行维度# pipeline-model-parallel-size (PP) = 2 # 流水线并行维度# sequence-parallel-size (SP) = 2 # 序列并行维度（Ulysses）# 总 GPU 数 = TP * PP * SP = 2*2*2 = 8# 通过这种组合，我们实现了对参数、层和序列的多维度分解。

四、显存优化分析与性能评估

4.1 显存占用分解计算

我们进行一个粗略的估算，展示 Ulysses + ZeRO-3 如何将显存压缩到 24GB 以下。

模型参数 (FP16)：176B × 2字节 ≈ 352 GB。
- ZeRO-3 分片后，每卡存储参数：352 GB / 8 =44 GB。
- 但是，ZeRO-3 的“参数切片”并不常驻显存，仅在需要时通过通信获取。实际常驻显存的是当前层的参数。
优化器状态 (ZeRO-3)：
- Adam 优化器状态（参数、动量、方差）约为参数的 12 倍（FP16 参数 + FP32 副本和状态）。
- 分片到 8 卡后，每卡优化器状态约为 (176B × 12 × 4字节) / 8 ≈105.6 GB。
- 通过offload_optimizer将优化器状态卸载到 CPU 内存，GPU 显存占用接近于0。
梯度 (FP16)：分片后每卡约为 (176B × 2字节) / 8 =44 GB。
- 在反向传播时逐层计算和释放，峰值显存占用远小于此值。
激活值 (Activation)：这是序列并行的主要优化目标。
- 对于 32K 序列，注意力激活值显存通常为 O(batch * seq_len² * hidden)。
- 通过 Ulysses 将序列维度分割到 8 卡，激活值显存降低为约 1/8。
- 粗略估算，单卡激活值从可能超过 100GB 降低到10-15 GB量级。
总计：经过优化后，单卡峰值显存主要由当前层参数 + 对应激活值 + 通信缓冲区构成，可以稳定控制在24 GB以内（远低于 A100 80GB 的上限），从而为更大的批次大小或更长的序列留出空间。

4.2 性能监控与日志

在训练过程中，可以通过 DeepSpeed 的日志和 NVIDIA 的nvidia-smi工具监控显存。

# 在训练脚本中，DeepSpeed会输出详细的显存使用情况# 也可以通过以下命令动态观察watch-n1nvidia-smi

预期日志输出中会包含类似信息：

[rank0] step=10, consumed samples=512, lr=1.00E-05, loss=7.34, ppl=1542.34 [rank0] memory_allocated (GB): 22.4 / 80.0 [rank0] max_memory_allocated (GB): 23.7 / 80.0

五、挑战、最佳实践与未来展望

5.1 遇到的挑战与解决方案

通信开销：all-to-all 通信在节点间可能成为瓶颈。解决方案：确保使用 InfiniBand 等高速互联，并调整reduce_bucket_size等参数优化通信效率。
收敛稳定性：混合精度训练和复杂的并行可能导致数值不稳定。解决方案：使用梯度裁剪 (gradient_clipping: 1.0)，可能需要在部分核心层使用 FP32 精度。
数据加载与预处理：超长序列对数据管道构成压力。解决方案：使用高效的数据加载库（如webdataset），并提前将数据预处理为固定长度序列。

5.2 进阶优化建议

与 FlashAttention 结合：将 Ulysses 序列并行与 FlashAttention-2 等优化计算内核结合，进一步提升注意力计算速度和降低显存。
混合并行策略调优：根据具体模型架构和硬件拓扑，调整 TP、PP 和 SP 的比例。例如，在 8 卡 A100 上，TP=2, PP=2, SP=2的配置可能比TP=1, PP=2, SP=4更高效。
CPU Offload 策略：对于更大的模型，可以同时启用offload_optimizer和offload_param到 CPU，用通信换显存。

5.3 未来展望

DeepSpeed-Ulysses 代表了面向超长序列大模型训练的重要方向。随着模型继续向万亿参数和百万令牌上下文窗口迈进，序列并行将与更精细的 3D 并行、异构内存（CPU/NVMe）管理以及更智能的编译器优化（如 TorchDynamo）深度结合，持续突破大模型训练的算力与内存边界。

结语

通过本文的实战演示，我们展示了 DeepSpeed-Ulysses 如何结合 ZeRO-3，将原本需要数百 GB 显存的 1760 亿参数模型训练，压缩到 8 张 A100 显卡的 24GB 显存以内。这不仅降低了超大规模模型训练的门槛，也为探索更长的上下文窗口和更复杂的多模态模型提供了切实可行的技术路径。希望这篇深度解析与实战指南，能为你的大模型训练之旅提供有力的支持。

注：本文代码为原理性示例，实际部署时请务必参考 Megatron-DeepSpeed 官方文档和最新版本，并根据具体硬件和数据环境进行充分测试与调优。