Qwen3.5-4B-AWQ快速部署：无需编译，4bit AWQ量化模型vLLM直跑指南-深圳市維司達科技有限公司

Qwen3.5-4B-AWQ快速部署：无需编译，4bit AWQ量化模型vLLM直跑指南

1. 模型概述

Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型，经过4bit AWQ量化处理后，显存占用仅约3GB，可在RTX 3060/4060等消费级显卡上流畅运行。

1.1 核心优势

极致低资源：4bit量化技术大幅降低显存需求
性能均衡：MMLU-Pro得分接近Qwen3-30B-A3B，OmniDocBench超越GPT-5-Nano
全能力覆盖：支持201种语言、原生多模态、长上下文和工具调用
部署友好：适配vLLM推理引擎，无需复杂编译过程

2. 环境准备

2.1 硬件要求

显卡：NVIDIA RTX 3060/4060及以上（显存≥4GB）
内存：建议≥16GB
存储：模型文件约3.5GB空间

2.2 软件依赖

项目已预装以下组件：

Python 3.8+
PyTorch 2.8
vLLM 0.4.0+
Supervisord（服务管理）

3. 快速部署指南

3.1 模型路径确认

模型默认安装在：

/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit

3.2 服务管理命令

# 查看服务状态 supervisorctl status # 启动服务 supervisorctl start qwen35-4b-awq # 停止服务 supervisorctl stop qwen35-4b-awq # 重启服务 supervisorctl restart qwen35-4b-awq

4. 使用与监控

4.1 访问WebUI

服务启动后，通过浏览器访问：

http://localhost:7860

4.2 日志查看

# 实时查看运行日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log # 查看错误日志 tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log

4.3 手动调试运行

如需调试，可手动执行：

cd /root/Qwen3.5-4B-AWQ-4bit /opt/miniconda3/envs/torch28/bin/python webui.py

5. 常见问题解决

5.1 显存不足处理

若启动失败提示显存不足：

# 检查GPU占用 nvidia-smi # 查找残留进程 ps aux | grep VLLM # 终止残留进程后重试 kill -9 <PID> supervisorctl start qwen35-4b-awq

5.2 开机自启说明

项目已配置Supervisord自动管理：

autostart=true：系统启动时自动运行
autorestart=true：异常退出后自动恢复

6. 项目结构说明

/root/Qwen3.5-4B-AWQ-4bit/ ├── webui.py # 主程序入口 ├── supervisor.conf # 服务配置 └── logs/ ├── webui.log # 运行日志 └── webui.err.log # 错误日志

7. 总结

Qwen3.5-4B-AWQ-4bit通过4bit量化技术实现了在消费级显卡上的高效运行，配合vLLM推理引擎提供了开箱即用的部署体验。本文详细介绍了从环境准备到服务管理的完整流程，帮助开发者快速上手这一轻量高效的AI模型。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

【MCP 2026边缘资源管理白皮书首发】：覆盖98.3%异构硬件的轻量级Agent协议栈设计实录

更多请点击： https://intelliparadigm.com 第一章：MCP 2026边缘资源管理白皮书发布背景与核心定位随着5G-A、AIoT及实时推理负载在工业质检、车载计算和低空智联网等场景的规模化落地，传统云中心集中式资源调度模式已难以满足毫秒级响应、带…

李华

深入 DMA：让外设绕过 CPU 与内存“私聊”的黑科技

当你从硬盘拷贝大文件时，CPU 是否全程忙碌？当网卡收到数据包时，是谁负责搬进内存？答案就是 DMA（Direct Memory Access，直接存储器访问）。今天，我们就来拆解这项让外设“零 CPU 干预”…

李华

录播姬：从零开始掌握B站直播录制的终极完整指南

录播姬：从零开始掌握B站直播录制的终极完整指南【免费下载链接】BililiveRecorder 录播姬 | mikufans 生放送录制项目地址: https://gitcode.com/gh_mirrors/bi/BililiveRecorder 录播姬（BililiveRecorder）是你录制B站直播内容的最佳…

李华

Qwen3.5-4B-AWQ快速部署：无需编译，4bit AWQ量化模型vLLM直跑指南