005、GPU实例选型指南:从推理到训练的全场景适配
上周帮同事调一个7B参数的模型微调任务,本地两张3090跑满了24G显存,训练曲线还是卡着不动。眼看着loss下降缓慢,他嘟囔着要不要再加两张卡。我看了眼代码里的batch_size,直接问他:“你试过把数据搬到云上T4实例跑过吗?”他愣了一下——很多工程师的第一反应总是“堆硬件”,却忽略了算力适配的本质问题。
一、从需求倒推配置:别急着选卡
选GPU实例最容易踩的坑就是“唯算力论”。看到A100就冲,结果推理任务并发量一上来,显存带宽成了瓶颈。真正合理的思路是反着来:
先问清楚任务类型:
- 纯推理服务?还是训练/微调?
- 如果是推理,预期QPS多少?latency要求多少毫秒?
- 如果是训练,数据量多大?是pretrain还是loRA微调?
- 模型规模到底多大?别信口头说的“大概几十亿参数”,老老实实
torch.cuda.memory_summary()看一遍
# 估算模型显存占用(经验公式)# 全量训练:参数数量(单位B)* 20字节 ≈ 所需显存(字节)# 7B模型全量训练:7 * 20 ≈ 140GB(所以双卡30