Qwen3.5-4B-AWQ详细步骤：GPU显存不足时kill残留VLLM进程标准流程-深圳市維司達科技有限公司

Qwen3.5-4B-AWQ详细步骤：GPU显存不足时kill残留VLLM进程标准流程

Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型，经过4bit AWQ量化后显存占用仅约3GB，可以在RTX 3060/4060等消费级显卡上流畅运行。

核心优势：

部署信息：

supervisorctl status

# 启动服务 supervisorctl start qwen35-4b-awq # 停止服务 supervisorctl stop qwen35-4b-awq # 重启服务 supervisorctl restart qwen35-4b-awq

# 实时查看运行日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log # 查看错误日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log

服务启动成功后，通过浏览器访问：

http://localhost:7860

项目已配置supervisor实现开机自启：

supervisord本身也已配置为开机启动，会确保所有autostart=true的服务自动拉起。

如需手动调试运行，可使用以下命令：

cd /root/Qwen3.5-4B-AWQ-4bit /opt/miniconda3/envs/torch28/bin/python webui.py

当服务启动失败并提示显存不足时，通常是之前运行的VLLM进程未完全退出导致。以下是标准处理流程：

nvidia-smi

ps aux | grep VLLM

# 终止指定PID的进程 kill -9 <PID> # 重新启动服务 supervisorctl start qwen35-4b-awq

/root/Qwen3.5-4B-AWQ-4bit/ ├── webui.py # Web界面主程序 ├── supervisor.conf # supervisor配置文件 └── logs/ ├── webui.log # 运行日志 └── webui.err.log # 错误日志

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

1. 项目概述：为AI编码助手注入俄语文本质量之魂如果你是一名在俄语环境中工作的开发者、产品经理或内容创作者，并且正在使用诸如 Claude Code、GitBrains 或 Cursor 这类AI编码助手，那么你很可能面临一个共同的痛点：当助手用俄语…

李华

一、实际应用场景描述在珠宝玉石行业中，消费者面临的核心问题是：“这块玉石/这颗宝石，是否真的如商家所说那样？”一条珠宝的典型流转路径是：- 矿山开采- 原石交易- 切割与加工- 鉴定机构认证- 商家销售在传统模式下&am…

李华

1. ARM分散加载文件基础概念解析在嵌入式系统开发中，内存管理是决定系统稳定性和性能的关键因素。ARM架构的链接器通过一种称为分散加载文件（Scatter File）的配置文件，为开发者提供了精细控制代码和数据在内存中布局的能力。这种技…

李华

1. 项目概述：当AI智能体需要“流水线”最近在折腾AI智能体（Agent）的开发，发现一个挺普遍的问题：单个智能体的能力再强，也总有边界。比如，一个能写代码的智能体，可能不擅长做数据可视…

李华

1. 项目概述：一个被低估的快速应用开发框架如果你是一名全栈开发者，或者正带领一个小团队从零开始构建一个现代化的Web应用，那么你大概率经历过这样的场景：项目初期，你花了大量时间在搭建项目脚手架、配置数据库连接、…

李华

1. 状态机基础：从理论到工程实践状态机（State Machine）作为描述对象行为的关键建模工具，其核心价值在于将复杂系统的行为抽象为有限的状态集合和状态间的转换规则。这种抽象方式特别适合实时系统和嵌入式开发场景，因为…

李华