文章详解vLLM大模型分布式推理部署方法,包括单GPU、单节点多GPU张量并行、多节点多GPU张量并行与流水线并行三种场景。提供单节点和多节点环境的具体部署命令,介绍multiprocessing和Ray两种分布式运行时配置。通过实例展示参数设置及多节点环境配置,帮助开发者高效部署大模型推理服务。
当模型太大无法放入单个 GPU 时,就需要使用分布式推理。
👀
单个模型副本的分布式推理策略
单个 GPU (无分布式推理):如果模型适合单个 GPU,则可能不需要分布式推理。直接在该 GPU 上运行推理。
单节点多 GPU 使用张量并行推理:如果模型太大而无法放入单个 GPU,但在具有多个 GPU 的单个节点上可以容纳,请使用张量并行。例如,在使用具有 4 个 GPU 的节点时,设置 tensor_parallel_size=4。
多节点多 GPU 使用张量并行和流水线并行推理:如果模型太大而无法放入单个节点,请结合使用张量并行和流水线并行。将tensor_parallel_size设置为每个节点的 GPU 数量,将pipeline_parallel_size设置为节点数量。例如,在使用每个节点有 2 个 GPU 的 2 个节点时,设置tensor_parallel_size=2和pipeline_parallel_size=2。
vLLM 多节点推理默认的分布式运行时是Ray,单节点推理默认是原生 Pythonmultiprocessing。在 API 服务器中设置–distributed-executor-backend来覆盖默认值。对于 multiprocessing,使用 mp;对于 Ray,使用 ray。
👀
单节点多 GPU 部署
在 2 个 GPU 上运行 API 服务
vllm serve ~/models/Qwen3/Qwen3-32B \ --tensor-parallel-size 2在 4 个 GPU 上运行 API 服务,同时启用流水线并行和张量并行
vllm serve ~/models/Qwen3/Qwen3-32B \ --tensor-parallel-size 2 --pipeline-parallel-size 2👀
多节点部署
使用 multiprocessing 运行时
2 个节点,每个节点 2 个 GPU
主节点 192.168.0.101
vllm serve ~/models/Qwen3/Qwen3-32B \ --tensor-parallel-size 2 --pipeline-parallel-size 2 \ --nnodes 2 --node-rank 0 \ --master-addr 192.168.0.101 \ --distributed-executor-backend mp工作节点 192.168.0.102
vllm serve ~/models/Qwen3/Qwen3-32B \ --tensor-parallel-size 2 --pipeline-parallel-size 2 \ --nnodes 2 --node-rank 1 \ --master-addr 192.168.0.101 \ --distributed-executor-backend mp使用 Ray 运行时
安装 Ray 集群
| 主机 | IP |
| Head Node | 192.168.0.104 |
| Worker Node | 192.168.0.105 |
pip install -U "ray[serve]" # 核心, 仪表盘, 集群启动器, 服务启动 Head Node
ray start --head --port=6379启动 Worker Node
ray start --address=192.168.0.104:6379启动 vLLM
vllm serve ~/models/Qwen3/Qwen3-32B \ --tensor-parallel-size 2 \ --pipeline-parallel-size 2 \ --distributed-executor-backend ray最后
选择AI大模型就是选择未来!最近两年,大家都可以看到AI的发展有多快,时代在瞬息万变,我们又为何不给自己多一个选择,多一个出路,多一个可能呢?
与其在传统行业里停滞不前,不如尝试一下新兴行业,而AI大模型恰恰是这两年的大风口,人才需求急为紧迫!
由于文章篇幅有限,在这里我就不一一向大家展示了,学习AI大模型是一项系统工程,需要时间和持续的努力。但随着技术的发展和在线资源的丰富,零基础的小白也有很好的机会逐步学习和掌握。
【最新最全版】AI大模型全套学习籽料(可无偿送):LLM面试题+AI大模型学习路线+大模型PDF书籍+640套AI大模型报告等等,从入门到进阶再到精通,超全面存下吧!
获取方式:有需要的小伙伴,可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
包括:AI大模型学习路线、LLM面试宝典、0基础教学视频、大模型PDF书籍/笔记、大模型实战案例合集、AI产品经理合集等等
AI大模型学习之路,道阻且长,但只要你坚持下去,就一定会有收获。