news 2026/6/10 19:55:16

Docker+vLLM内网离线部署Qwen3 流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Docker+vLLM内网离线部署Qwen3 流程

Docker + vLLM 内网离线部署 Qwen3-32B 完整教程

环境准备

Nvidia显卡驱动、CUDA、nvidia-container安装
参考:http:
Docker环境安装
参考:http:

注意:在进行VLLM容器化部署之前,需要确保已在服务器上安装了Docker 和
Nvidia显卡驱动、CUDA、nvidia-container。

一、部署流程概述

部署流程主要分为三个关键步骤:

  1. 准备vLLM镜像- 在联网环境下载并导入内网
  2. 获取模型文件- 从模型仓库下载Qwen3-32B模型
  3. 启动推理服务- 使用Docker运行vLLM服务

下面详细介绍每个步骤的具体操作。

二、详细操作步骤

1. 离线获取 vLLM 镜像

由于内网服务器无法直接访问Docker Hub,需要在有网络的机器上先拉取镜像,然后传输到内网服务器。

在可联网的机器上执行:

# 拉取官方vLLM镜像(大小约20GB,下载需要较长时间)docker pull vllm/vllm-openai# 将镜像打包保存为文件docker save -o vllm-openai-image.tar vllm/vllm-openai:latest

在内网服务器上执行:

# 进入保存镜像文件的目录cd/data# 从文件加载镜像到本地Dockerdocker load<vllm-openai-image.tar# 验证镜像是否加载成功(应该能看到vllm/vllm-openai镜像)docker images|grepvllm-openai

2. 下载 Qwen3-32B 模型文件

模型可以从以下几个平台下载(推荐使用国内源提升下载速度):

  • Hugging Face Hub(国内镜像):https://hf-mirror.com/
  • ModelScope 魔搭社区:https://www.modelscope.cn/models
  • GitCode:https://gitcode.net/

本文以魔搭社区为例,使用git下载:

# 确保已安装git-lfs(大文件支持)gitlfsinstall# 克隆模型仓库(模型大小约62GB,下载需要很长时间)gitclone https://www.modelscope.cn/Qwen/Qwen3-32B.git

下载完成后,将整个模型文件夹复制到内网服务器的/data/Qwen3-32B目录下。

3. 启动 vLLM 推理服务

使用以下命令启动服务容器,请根据实际情况调整参数:

docker run -d --privileged --gpus all\--restart unless-stopped\--networkhost\-v /data/Qwen3-32B:/app/model\--shm-size 32G\--name vllm-qwen3\vllm/vllm-openai:latest\--model /app/model\--served-model-name qwen3:32b
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 12:27:20

47、技术知识综合解析与操作指南

技术知识综合解析与操作指南 1. 启动过程与服务管理 启动过程中,/sbin/init 程序(Upstart)发挥着重要作用。它具有事件驱动的特点,其脚本使用 # 作为注释标记,脚本位置和语法都有特定规则。通过 start、stop、status 等命令可以对作业进行启动、停止和状态检查等操作,还…

作者头像 李华
网站建设 2026/6/10 12:21:38

基于vue的家政服务系统设计与实现_q292f022_springboot php python nodejs

目录 具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作 具体实现截图 本系统&#xff08;程序源码数据库调试部署讲解&#xff09;同时还支持java、ThinkPHP、Node.js、Spring…

作者头像 李华
网站建设 2026/6/10 12:22:44

基于vue的网络书籍小说在线平台阅读系统_acb39ucm_springboot php python nodejs

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作具体实现截图 本系统&#xff08;程序源码数据库调试部署讲解&#xff09;同时还支持java、ThinkPHP、Node.js、Spring B…

作者头像 李华
网站建设 2026/6/10 0:13:54

any-listen:构建专属私人音乐空间的完整解决方案

在数字音乐时代&#xff0c;你是否厌倦了各大平台的版权限制、频繁的会员订阅和无处不在的商业推广&#xff1f;any-listen 为你提供了一个革命性的选择——搭建完全属于你自己的私人音乐服务器&#xff0c;重新定义音乐欣赏的边界。 【免费下载链接】any-listen A cross-platf…

作者头像 李华
网站建设 2026/6/10 14:07:43

68、《系统调试相关命令与错误代码解析》

《系统调试相关命令与错误代码解析》 1. Link 块表与队列信息 Link 块表展示了系统中链路块的详细信息,如下表所示: | LBLKADDR | QTOP | QBOT | FILEADDR | MUXID | | — | — | — | — | — | | 80c61580 | 0 | 80728a48 | 809a9e80 | 7 | | 80ff7a00 | 0 | 806af78…

作者头像 李华
网站建设 2026/6/10 13:49:19

WebGL流体模拟引擎:浏览器端实时流体渲染技术深度解析

WebGL流体模拟引擎&#xff1a;浏览器端实时流体渲染技术深度解析 【免费下载链接】WebGL-Fluid-Simulation Play with fluids in your browser (works even on mobile) 项目地址: https://gitcode.com/gh_mirrors/web/WebGL-Fluid-Simulation 技术概览与核心价值 WebG…

作者头像 李华