Qwen3.5-4B-AWQ详细步骤:GPU显存不足时kill残留VLLM进程标准流程
1. 项目概述
Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型,经过4bit AWQ量化后显存占用仅约3GB,可以在RTX 3060/4060等消费级显卡上流畅运行。
核心优势:
- 性能均衡:MMLU-Pro得分接近Qwen3-30B-A3B,OmniDocBench表现优于GPT-5-Nano
- 全能力覆盖:支持201种语言、原生多模态(图文)、长上下文、工具调用
- 部署友好:适配llama.cpp、vLLM等主流推理引擎
部署信息:
- 模型路径:
/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit - 推理引擎:vLLM
- WebUI端口:7860
2. 服务管理
2.1 查看服务状态
supervisorctl status2.2 启动/停止/重启服务
# 启动服务 supervisorctl start qwen35-4b-awq # 停止服务 supervisorctl stop qwen35-4b-awq # 重启服务 supervisorctl restart qwen35-4b-awq2.3 查看日志
# 实时查看运行日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log # 查看错误日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log3. 访问WebUI
服务启动成功后,通过浏览器访问:
http://localhost:78604. 开机自启配置
项目已配置supervisor实现开机自启:
autostart=true:系统启动时自动运行服务autorestart=true:服务崩溃后自动重启
supervisord本身也已配置为开机启动,会确保所有autostart=true的服务自动拉起。
5. 手动运行(调试用)
如需手动调试运行,可使用以下命令:
cd /root/Qwen3.5-4B-AWQ-4bit /opt/miniconda3/envs/torch28/bin/python webui.py6. 解决GPU显存不足问题
当服务启动失败并提示显存不足时,通常是之前运行的VLLM进程未完全退出导致。以下是标准处理流程:
6.1 检查GPU显存占用
nvidia-smi6.2 查找残留VLLM进程
ps aux | grep VLLM6.3 终止残留进程并重启服务
# 终止指定PID的进程 kill -9 <PID> # 重新启动服务 supervisorctl start qwen35-4b-awq7. 项目目录结构
/root/Qwen3.5-4B-AWQ-4bit/ ├── webui.py # Web界面主程序 ├── supervisor.conf # supervisor配置文件 └── logs/ ├── webui.log # 运行日志 └── webui.err.log # 错误日志获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。