Qwen1.5-0.5B-Chat微调入门：LoRA适配器部署教程-深圳市維司達科技有限公司

Qwen1.5-0.5B-Chat微调入门：LoRA适配器部署教程

1. 引言

1.1 轻量级对话模型的工程价值

随着大语言模型在智能客服、边缘设备助手等场景中的广泛应用，对低资源消耗、高响应速度的轻量级模型需求日益增长。Qwen1.5-0.5B-Chat作为通义千问系列中参数量最小的对话优化版本，在保持基本语义理解与生成能力的同时，显著降低了部署门槛。

本项目基于ModelScope（魔塔社区）生态构建，聚焦于如何将Qwen1.5-0.5B-Chat模型通过 LoRA（Low-Rank Adaptation）技术进行高效微调，并实现 CPU 环境下的 Web 服务化部署。整个流程兼顾了模型性能、资源利用率和开发便捷性，特别适合个人开发者或中小企业快速搭建定制化对话系统。

1.2 教程目标与前置知识

本文是一篇从零开始的实践指南，旨在帮助读者完成以下任务：

配置本地 Conda 环境并安装依赖
使用 ModelScope SDK 加载 Qwen1.5-0.5B-Chat 基础模型
应用 LoRA 技术对模型进行轻量化微调
构建 Flask WebUI 实现流式对话交互
在无 GPU 环境下完成推理服务部署

建议前置知识：

Python 编程基础
PyTorch 和 Hugging Face Transformers 初步使用经验
基本命令行操作能力

2. 环境准备与依赖安装

2.1 创建独立 Conda 环境

为避免依赖冲突，推荐使用 Conda 创建专用虚拟环境：

conda create -n qwen_env python=3.9 conda activate qwen_env

2.2 安装核心依赖库

依次安装必要的 Python 包：

pip install torch==2.0.1+cpu torchvision==0.15.2+cpu --extra-index-url https://download.pytorch.org/whl/cpu pip install transformers==4.38.0 pip install modelscope==1.14.0 pip install flask==2.3.3 pip install accelerate==0.27.2

注意：以上版本组合经过实测验证兼容性良好。若需启用 GPU 支持，请根据 CUDA 版本调整 PyTorch 安装命令。

2.3 验证环境配置

运行以下脚本测试关键组件是否正常加载：

import torch from modelscope import snapshot_download print(f"PyTorch version: {torch.__version__}") print(f"CUDA available: {torch.cuda.is_available()}") try: model_dir = snapshot_download('qwen/Qwen1.5-0.5B-Chat') print("ModelScope model download test passed.") except Exception as e: print(f"Download failed: {e}")

确保输出中不出现错误信息，且能成功下载模型快照路径。

3. 模型加载与 LoRA 微调配置

3.1 使用 ModelScope 加载基础模型

利用modelscope提供的统一接口获取官方模型权重：

from modelscope import AutoModelForCausalLM, AutoTokenizer model_name = "qwen/Qwen1.5-0.5B-Chat" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True, device_map="auto")

该方式自动处理模型结构注册、权重映射及 tokenizer 初始化，保证模型来源权威性和一致性。

3.2 引入 PEFT 与 LoRA 技术

LoRA 是一种高效的参数微调方法，其核心思想是冻结原始模型权重，仅训练低秩分解矩阵来近似梯度更新。相比全参数微调，LoRA 可减少 90% 以上的可训练参数量。

首先安装peft库：

pip install peft==0.10.0

然后定义 LoRA 配置：

from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=8, lora_alpha=16, target_modules=["q_proj", "k_proj", "v_proj"], # Qwen 注意力层投影矩阵 lora_dropout=0.05, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, lora_config) model.print_trainable_parameters()

输出示例：

trainable params: 2,097,152 || all params: 508,403,712 || trainable%: 0.4125

可见仅需训练约 200 万参数即可影响整体行为，极大降低显存压力。

4. 数据集准备与训练流程

4.1 构建指令微调数据集

创建一个简单的 JSON 文件用于训练，格式如下：

[ { "instruction": "介绍你自己", "input": "", "output": "我是通义千问的小型版本，可以回答问题和聊天。" }, { "instruction": "写一首关于春天的诗", "input": "", "output": "春风拂面花自开，柳绿桃红映山川..." } ]

保存为data/train_data.json。

4.2 数据预处理与编码

使用 tokenizer 对样本进行编码：

import json from transformers import DataCollatorForSeq2Seq def load_and_tokenize_data(file_path): with open(file_path, 'r', encoding='utf-8') as f: data = json.load(f) tokenized_data = [] for item in data: prompt = f"用户：{item['instruction']}\n助手：" full_text = prompt + item["output"] tokenized = tokenizer( full_text, truncation=True, padding=False, max_length=512, return_tensors=None ) tokenized_data.append(tokenized) return tokenized_data train_dataset = load_and_tokenize_data("data/train_data.json") data_collator = DataCollatorForSeq2Seq(tokenizer, model=model, padding=True)

4.3 启动训练过程

使用TrainerAPI 简化训练逻辑：

from transformers import TrainingArguments, Trainer training_args = TrainingArguments( output_dir="./output/qwen_lora", num_train_epochs=3, per_device_train_batch_size=1, gradient_accumulation_steps=8, learning_rate=1e-4, optim="adamw_torch", logging_steps=10, save_steps=100, save_total_limit=2, report_to="none", fp16=False, # CPU 不支持 remove_unused_columns=False, ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, data_collator=data_collator, tokenizer=tokenizer, ) trainer.train()

训练完成后，LoRA 权重将保存在./output/qwen_lora/checkpoint-*目录下。

5. 推理服务封装与 WebUI 部署

5.1 加载微调后模型

合并 LoRA 权重到基础模型以提升推理效率：

from peft import PeftModel base_model = AutoModelForCausalLM.from_pretrained( "qwen/Qwen1.5-0.5B-Chat", trust_remote_code=True, torch_dtype=torch.float32 ) model = PeftModel.from_pretrained(base_model, "./output/qwen_lora/checkpoint-100") model = model.merge_and_unload() # 合并适配器权重

5.2 构建 Flask Web 服务

创建app.py文件实现异步流式响应：

from flask import Flask, request, jsonify, render_template_string import threading import queue app = Flask(__name__) HTML_TEMPLATE = ''' <!DOCTYPE html> <html> <head><title>Qwen Chat</title></head> <body> <h2>Qwen1.5-0.5B-Chat 对话界面</h2> <div id="chat"></div> <input type="text" id="user_input" placeholder="输入你的问题..." /> <button onclick="send()">发送</button> <script> function send() { let input = document.getElementById("user_input"); let chat = document.getElementById("chat"); if (!input.value) return; chat.innerHTML += `<p><strong>你：</strong>${input.value}</p>`; fetch("/chat", { method: "POST", headers: {"Content-Type": "application/json"}, body: JSON.stringify({query: input.value}) }).then(res => { const reader = res.body.getReader(); readStream(reader); }); input.value = ""; } async function readStream(reader) { const decoder = new TextDecoder("utf-8"); let result = ""; while (true) { const { done, value } = await reader.read(); if (done) break; result += decoder.decode(value, {stream: true}); document.getElementById("chat").innerHTML += `<p><strong>助手：</strong>${result}</p>`; } } </script> </body> </html> ''' @app.route("/") def home(): return render_template_string(HTML_TEMPLATE) @app.route("/chat", methods=["POST"]) def chat(): user_query = request.json.get("query", "") inputs = tokenizer(user_query, return_tensors="pt").to(model.device) def generate(): stream_queue = queue.Queue() def worker(): outputs = model.generate( **inputs, max_new_tokens=256, streamer=None, pad_token_id=tokenizer.eos_token_id ) text = tokenizer.decode(outputs[0], skip_special_tokens=True) response_text = text[len(user_query):].strip() for char in response_text: stream_queue.put(char) stream_queue.put(None) # 结束标志 thread = threading.Thread(target=worker) thread.start() while True: char = stream_queue.get() if char is None: break yield char return app.response_class(generate(), mimetype='text/plain') if __name__ == "__main__": app.run(host="0.0.0.0", port=8080, threaded=True)

5.3 启动服务并访问

执行启动命令：

python app.py

服务启动后，点击界面上的HTTP (8080端口)访问入口，即可进入聊天界面。

6. 总结

6.1 核心成果回顾

本文完整实现了Qwen1.5-0.5B-Chat模型的 LoRA 微调与 Web 服务部署，具备以下特点：

轻量化设计：5亿参数模型可在 <2GB 内存环境中稳定运行
高效微调：采用 LoRA 技术，仅需训练 0.4% 参数即可实现行为定制
原生集成：直接对接 ModelScope 社区，保障模型安全与更新同步
CPU 友好：基于 float32 精度适配，无需 GPU 即可完成推理
交互体验佳：内置 Flask 流式 WebUI，支持自然对话风格

6.2 最佳实践建议

小批量多轮次训练：对于 CPU 环境，建议 batch_size=1 + gradient_accumulation_steps 控制内存占用
定期合并 LoRA 权重：避免长期保留适配器带来的推理延迟
限制最大生成长度：防止长文本导致客户端卡顿
增加输入校验机制：防止恶意输入引发异常

6.3 下一步学习路径

尝试使用llama.cpp进一步量化模型至 int4，进一步压缩体积
接入 Gradio 快速构建更美观的 UI 界面
扩展支持多轮对话记忆（Conversation History）
探索 DPO 或 ORPO 等高级对齐算法优化回复质量

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Qwen1.5-0.5B-Chat微调入门：LoRA适配器部署教程