从0开始学ms-swift：构建你的第一个微调项目-深圳市維司達科技有限公司

从0开始学ms-swift：构建你的第一个微调项目

1. 引言

在大模型时代，如何高效地对预训练语言模型进行微调已成为AI工程实践中的核心技能。本文将基于ms-swift这一轻量级、可扩展的微调框架，带你从零开始完成一个完整的指令微调（SFT）项目。无论你是初学者还是有一定经验的开发者，都能通过本教程快速掌握使用ms-swift进行模型微调的核心流程。

ms-swift作为魔搭社区推出的全链路微调与部署工具，支持超过600个纯文本和300个多模态大模型，涵盖Qwen、Llama、InternLM等主流架构，并提供LoRA、QLoRA、DPO、GRPO等多种训练方式。其优势在于： -开箱即用：命令行一键启动，无需复杂配置 -全流程覆盖：训练、推理、评测、量化、部署一体化 -高性能优化：集成FlashAttention、Ulysses序列并行、vLLM推理加速等技术 -灵活扩展性：支持自定义数据集、模型结构与训练策略

本文将以Qwen2.5-7B-Instruct为例，演示如何使用LoRA对模型进行自我认知微调，并最终实现本地推理与模型导出。

2. 环境准备与依赖安装

2.1 系统与硬件要求

ms-swift支持多种硬件平台，推荐配置如下：

组件	推荐配置
GPU	单卡A10/A100/H100或双卡RTX 3090/4090
显存	≥24GB（用于全参数微调），≥16GB（LoRA微调）
CPU	多核Intel/AMD处理器
内存	≥32GB
存储	≥100GB SSD空间

💡 提示：若显存有限，可使用QLoRA进一步降低资源消耗，7B级别模型可在9GB显存下运行。

2.2 安装ms-swift框架

建议使用conda创建独立环境以避免依赖冲突：

# 创建Python环境 conda create -n swift python=3.10 conda activate swift # 安装ms-swift（推荐方式） pip install 'ms-swift[all]' -U -i https://pypi.tuna.tsinghua.edu.cn/simple # 或从源码安装（适合开发调试） git clone https://github.com/modelscope/ms-swift.git cd ms-swift pip install -e '.[llm]' -i https://pypi.tuna.tsinghua.edu.cn/simple

⚠️ 注意：ms-swift依赖PyTorch ≥ 2.0，CUDA版本需匹配驱动。如遇NCCL通信问题，请设置：
bash export NCCL_IB_DISABLE=1; export NCCL_P2P_DISABLE=1;

3. 数据准备与格式规范

3.1 支持的数据集类型

ms-swift内置150+常用数据集，可通过ID直接加载，例如： -alpaca-gpt4-data-zh：中英文混合指令数据 -swift/self-cognition：自我认知训练数据 -sharegpt4v：多模态对话数据

也可通过dataset_path指定本地JSON文件路径。

3.2 自定义数据集格式

ms-swift支持标准ShareGPT格式的JSON数据，基本结构如下：

[ { "conversations": [ { "from": "user", "value": "你叫什么名字？" }, { "from": "assistant", "value": "我是小蜜，你的智能助手。" } ], "system": "你是一名优秀的陪聊大师，你的名字叫小蜜。" } ]

示例：创建自我认知数据集

新建文件data/self_cognition.json：

[ { "conversations": [ { "from": "user", "value": "你是谁？" }, { "from": "assistant", "value": "我是由魔搭社区训练的专属助手，我的名字是SwiftBot。" } ], "system": "你是一个定制化的AI助手，名为SwiftBot。" } ]

注册自定义数据集

创建描述文件data/custom_dataset_info.json：

{ "self_cognition": { "dataset_path": "./data/self_cognition.json" } }

4. 模型微调实战：使用LoRA进行指令微调

4.1 命令行方式（推荐）

执行以下命令启动LoRA微调任务：

CUDA_VISIBLE_DEVICES=0 \ swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --train_type lora \ --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \ 'swift/self-cognition#500' \ --torch_dtype bfloat16 \ --num_train_epochs 1 \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --learning_rate 1e-4 \ --lora_rank 8 \ --lora_alpha 32 \ --target_modules all-linear \ --gradient_accumulation_steps 16 \ --eval_steps 50 \ --save_steps 50 \ --save_total_limit 2 \ --logging_steps 5 \ --max_length 2048 \ --output_dir output \ --system 'You are a helpful assistant.' \ --warmup_ratio 0.05 \ --dataloader_num_workers 4 \ --model_author swift \ --model_name swift-bot

关键参数说明

参数	说明
`--model`	指定HuggingFace或ModelScope上的模型ID
`--train_type`	训练方式：`lora`,`full`,`qlora`
`--dataset`	数据集ID或路径，支持多个数据集拼接
`--lora_rank`/`--lora_alpha`	LoRA低秩矩阵维度与缩放系数
`--target_modules`	可设为`all-linear`自动识别线性层
`--output_dir`	输出检查点目录
`--model_author/name`	仅当包含`self-cognition`数据时生效，用于设定模型身份

✅ 成功运行后将在output/目录生成checkpoint，包含适配器权重与训练配置。

4.2 Web UI方式（零代码入门）

对于不熟悉命令行的用户，ms-swift提供了图形化界面：

swift web-ui

访问http://localhost:7860即可进入交互式训练界面，支持： - 模型选择 - 数据上传 - 超参调节 - 实时日志监控 - 在线推理测试

该方式特别适合教学演示与快速原型验证。

4.3 Python API方式（高级定制）

若需更精细控制训练流程，可使用Python脚本：

from swift import get_model_tokenizer, Swift, Seq2SeqTrainer from datasets import load_dataset # 加载模型与分词器 model, tokenizer = get_model_tokenizer('Qwen/Qwen2.5-7B-Instruct') # 添加LoRA模块 lora_config = dict(type='lora') model = Swift.prepare_model(model, lora_config) # 加载数据集 train_dataset = load_dataset('AI-ModelScope/alpaca-gpt4-data-zh', split='train[:500]') eval_dataset = load_dataset('swift/self-cognition', split='train[:100]') # 构建训练器 trainer = Seq2SeqTrainer( model=model, args={ 'output_dir': 'output', 'num_train_epochs': 1, 'per_device_train_batch_size': 1, 'learning_rate': 1e-4, 'logging_steps': 5, 'save_steps': 50, 'evaluation_strategy': 'steps', 'bf16': True }, train_dataset=train_dataset, eval_dataset=eval_dataset ) # 开始训练 trainer.train()

此方式便于集成到现有项目中，支持自定义Callback、Loss函数等。

5. 模型推理与效果验证

5.1 使用命令行进行推理

训练完成后，使用swift infer命令加载适配器进行推理：

# 使用原生PyTorch引擎 CUDA_VISIBLE_DEVICES=0 \ swift infer \ --adapters output/checkpoint-50 \ --stream true \ --temperature 0 \ --max_new_tokens 512

输入提示如：“你是谁？”
预期输出应体现个性化特征，如：“我是SwiftBot，由ms-swift框架微调而来。”

5.2 合并LoRA权重并加速推理

为提升推理速度，可将LoRA权重合并至基础模型：

# 先合并权重 swift export \ --adapters output/checkpoint-50 \ --output_dir merged_model # 使用vLLM加速推理 CUDA_VISIBLE_DEVICES=0 \ swift infer \ --model merged_model \ --infer_backend vllm \ --vllm_max_model_len 8192 \ --stream true

🔥 性能对比：vLLM相比原生PyTorch可提升吞吐量3-5倍，尤其适合高并发服务场景。

6. 模型导出与部署上线

6.1 推送模型至ModelScope

将训练好的模型发布到魔搭社区，供他人复用：

swift export \ --adapters output/checkpoint-last \ --push_to_hub true \ --hub_model_id your-username/qwen2-swift-bot \ --hub_token YOUR_HUB_TOKEN \ --use_hf false

上传成功后可在ModelScope搜索并下载模型。

6.2 本地部署为API服务

使用swift deploy启动RESTful API服务：

swift deploy \ --model merged_model \ --infer_backend vllm \ --host 0.0.0.0 \ --port 8080

支持OpenAI兼容接口，请求示例：

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen2-swift-bot", "messages": [{"role": "user", "content": "介绍一下你自己"}] }'

7. 常见问题与调优建议

7.1 显存不足怎么办？

使用--train_type qlora启用4-bit量化训练
减小--per_device_train_batch_size
启用--gradient_checkpointing true
使用--deepspeed zero2进行ZeRO优化

7.2 如何提高训练稳定性？

设置合理的学习率（LoRA通常为1e-4 ~ 5e-5）
使用bfloat16精度（需Ampere及以上GPU）
开启--warmup_ratio 0.05防止初期梯度爆炸
监控loss曲线，避免过拟合

7.3 自定义数据训练失败？

检查JSON格式是否符合ShareGPT规范
确保字段名正确：from,value,conversations
使用--check_dataset_strategy warning开启数据校验

8. 总结

本文系统介绍了如何使用ms-swift框架完成一次完整的模型微调项目，涵盖了环境搭建、数据准备、模型训练、推理验证到部署上线的全生命周期。核心要点包括：

ms-swift的优势在于“轻量+全链路”：无论是命令行、Web UI还是Python API，均能无缝衔接。
LoRA是高效微调的首选方案：在保持性能的同时显著降低显存占用。
支持多样化部署模式：从本地交互到vLLM加速再到OpenAPI服务，满足不同场景需求。
生态完善，易于扩展：支持主流模型、数据集与训练算法，适合研究与生产环境。

下一步你可以尝试： - 使用DPO进行偏好对齐 - 微调多模态模型（如Qwen-VL） - 集成强化学习（GRPO族算法） - 构建Agent应用

ms-swift正在持续演进，未来将支持更多前沿技术，助力每一位开发者轻松驾驭大模型。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

从0开始学ms-swift：构建你的第一个微调项目