news 2026/5/9 7:09:19

Qwen3.5-4B-AWQ详细步骤:GPU显存不足时kill残留VLLM进程标准流程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen3.5-4B-AWQ详细步骤:GPU显存不足时kill残留VLLM进程标准流程

Qwen3.5-4B-AWQ详细步骤:GPU显存不足时kill残留VLLM进程标准流程

1. 项目概述

Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型,经过4bit AWQ量化后显存占用仅约3GB,可以在RTX 3060/4060等消费级显卡上流畅运行。

核心优势

  • 性能均衡:MMLU-Pro得分接近Qwen3-30B-A3B,OmniDocBench表现优于GPT-5-Nano
  • 全能力覆盖:支持201种语言、原生多模态(图文)、长上下文、工具调用
  • 部署友好:适配llama.cpp、vLLM等主流推理引擎

部署信息

  • 模型路径:/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit
  • 推理引擎:vLLM
  • WebUI端口:7860

2. 服务管理

2.1 查看服务状态

supervisorctl status

2.2 启动/停止/重启服务

# 启动服务 supervisorctl start qwen35-4b-awq # 停止服务 supervisorctl stop qwen35-4b-awq # 重启服务 supervisorctl restart qwen35-4b-awq

2.3 查看日志

# 实时查看运行日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log # 查看错误日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log

3. 访问WebUI

服务启动成功后,通过浏览器访问:

http://localhost:7860

4. 开机自启配置

项目已配置supervisor实现开机自启:

  • autostart=true:系统启动时自动运行服务
  • autorestart=true:服务崩溃后自动重启

supervisord本身也已配置为开机启动,会确保所有autostart=true的服务自动拉起。

5. 手动运行(调试用)

如需手动调试运行,可使用以下命令:

cd /root/Qwen3.5-4B-AWQ-4bit /opt/miniconda3/envs/torch28/bin/python webui.py

6. 解决GPU显存不足问题

当服务启动失败并提示显存不足时,通常是之前运行的VLLM进程未完全退出导致。以下是标准处理流程:

6.1 检查GPU显存占用

nvidia-smi

6.2 查找残留VLLM进程

ps aux | grep VLLM

6.3 终止残留进程并重启服务

# 终止指定PID的进程 kill -9 <PID> # 重新启动服务 supervisorctl start qwen35-4b-awq

7. 项目目录结构

/root/Qwen3.5-4B-AWQ-4bit/ ├── webui.py # Web界面主程序 ├── supervisor.conf # supervisor配置文件 └── logs/ ├── webui.log # 运行日志 └── webui.err.log # 错误日志

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 7:07:34

ru-text:为AI编码助手注入专业俄语文本质量引擎

1. 项目概述&#xff1a;为AI编码助手注入俄语文本质量之魂 如果你是一名在俄语环境中工作的开发者、产品经理或内容创作者&#xff0c;并且正在使用诸如 Claude Code、GitBrains 或 Cursor 这类AI编码助手&#xff0c;那么你很可能面临一个共同的痛点&#xff1a;当助手用俄语…

作者头像 李华
网站建设 2026/5/9 6:57:31

ARM分散加载文件详解:内存管理与优化实践

1. ARM分散加载文件基础概念解析在嵌入式系统开发中&#xff0c;内存管理是决定系统稳定性和性能的关键因素。ARM架构的链接器通过一种称为分散加载文件&#xff08;Scatter File&#xff09;的配置文件&#xff0c;为开发者提供了精细控制代码和数据在内存中布局的能力。这种技…

作者头像 李华
网站建设 2026/5/9 6:53:31

AI智能体工作流编排:从单体到流水线的工程实践

1. 项目概述&#xff1a;当AI智能体需要“流水线”最近在折腾AI智能体&#xff08;Agent&#xff09;的开发&#xff0c;发现一个挺普遍的问题&#xff1a;单个智能体的能力再强&#xff0c;也总有边界。比如&#xff0c;一个能写代码的智能体&#xff0c;可能不擅长做数据可视…

作者头像 李华
网站建设 2026/5/9 6:49:36

Fabrk框架全解析:一体化RAD方案加速全栈开发与后台管理

1. 项目概述&#xff1a;一个被低估的快速应用开发框架如果你是一名全栈开发者&#xff0c;或者正带领一个小团队从零开始构建一个现代化的Web应用&#xff0c;那么你大概率经历过这样的场景&#xff1a;项目初期&#xff0c;你花了大量时间在搭建项目脚手架、配置数据库连接、…

作者头像 李华
网站建设 2026/5/9 6:46:28

状态机原理与工程实践:从基础到UML应用

1. 状态机基础&#xff1a;从理论到工程实践状态机&#xff08;State Machine&#xff09;作为描述对象行为的关键建模工具&#xff0c;其核心价值在于将复杂系统的行为抽象为有限的状态集合和状态间的转换规则。这种抽象方式特别适合实时系统和嵌入式开发场景&#xff0c;因为…

作者头像 李华