Unsloth+SwanLab：可视化监控微调全过程-深圳市維司達科技有限公司

Unsloth+SwanLab：可视化监控微调全过程

1. 引言：高效微调与可视化监控的结合

在大语言模型（LLM）的微调实践中，效率与可观测性是两大核心挑战。Unsloth作为一个开源的 LLM 微调和强化学习框架，宣称能够实现“2倍训练速度、显存降低70%”，显著降低了微调门槛。而SwanLab则提供了一套轻量级、易集成的实验追踪工具，支持与 Hugging Face Transformers 框架无缝对接。

本文将基于unsloth镜像环境，系统性地展示如何使用Unsloth + SwanLab完成从 LoRA 微调、全量微调到继续预训练（Continued Pretraining, CPT）的全流程，并重点突出 SwanLab 在训练过程中的实时可视化监控能力，帮助开发者快速定位问题、优化参数、提升模型性能。

文章内容结构如下：

LoRA 微调实战：快速验证流程可行性
全量微调实践：高资源消耗场景下的注意事项
继续预训练实战：领域知识注入的有效路径
可视化监控价值总结

2. LoRA微调实战：快速验证流程

LoRA（Low-Rank Adaptation）是一种高效的参数微调方法，仅更新少量新增参数即可适配新任务，非常适合资源受限或快速迭代的场景。

2.1 环境准备与验证

首先确认unsloth_env环境已正确激活并安装相关依赖：

conda env list conda activate unsloth_env python -m unsloth

若输出包含Unsloth patched字样，则说明安装成功。

2.2 LoRA 参数注入

使用FastLanguageModel.get_peft_model注入 LoRA 层，关键参数如下：

model = FastLanguageModel.get_peft_model( model, r=16, target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], lora_alpha=16, lora_dropout=0, bias="none", use_gradient_checkpointing="unsloth", random_state=3407, )

说明：use_gradient_checkpointing="unsloth"是 Unsloth 特有的优化策略，相比标准实现可节省约30%显存。

2.3 训练参数配置

采用SFTTrainer和SFTConfig进行指令微调设置：

from trl import SFTTrainer, SFTConfig trainer = SFTTrainer( model=model, tokenizer=tokenizer, train_dataset=combined_dataset, args=SFTConfig( dataset_text_field="text", per_device_train_batch_size=2, gradient_accumulation_steps=4, max_steps=30, learning_rate=2e-4, logging_steps=1, optim="adamw_8bit", weight_decay=0.01, lr_scheduler_type="linear", seed=3407, report_to="none", ), )

参数	含义
`per_device_train_batch_size`	单卡 batch size
`gradient_accumulation_steps`	梯度累积步数，等效增大 batch
`max_steps`	调试阶段建议设为小值

此时总 batch size 为2 * 4 = 8，共训练2 * 4 * 30 = 240条样本。

2.4 集成 SwanLab 实验追踪

通过SwanLabCallback将训练指标自动上传至云端仪表盘：

from swanlab.integration.transformers import SwanLabCallback swanlab_callback = SwanLabCallback( project="trl_integration", experiment_name="DeepSeek-R1-Distill-Qwen-1.5B-SFT", description="测试swanlab和trl的集成", config={"framework": "🤗TRL"}, ) trainer = SFTTrainer( ..., callbacks=[swanlab_callback], )

该回调会自动记录：

损失曲线（train_loss）
学习率变化
每秒样本数（samples/sec）
显存占用情况

2.5 执行微调与结果分析

启动训练：

trainer_stats = trainer.train()

输出日志中可见 SwanLab 的同步信息：

🚀 View run at https://swanlab.cn/@CulinaryAlchemist/trl_integration/runs/ah9pc66lt4sahsepni8qy

打开链接即可查看实时训练图表，包括 loss 下降趋势、GPU 利用率等。

训练结束后可通过以下方式查看显存使用情况：

used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3) print(f"Peak reserved memory = {used_memory} GB.")

结果显示峰值显存约为4.64 GB，相比原始模型大幅降低。

2.6 模型推理测试

无需手动合并权重，直接启用推理模式：

FastLanguageModel.for_inference(model) messages = [{"role": "user", "content": "解方程 (x + 2)^2 = 0."}] inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_new_tokens=1200) response = tokenizer.decode(outputs[0])

返回结果包含完整的思维链推理过程，表明模型已具备基本逻辑能力。

3. 全量微调实践：高精度定制化训练

当需要对模型进行深度改造时，全量微调（Full Fine-Tuning）成为必要选择，但其显存开销极大，需谨慎操作。

3.1 加载模型并开启全量训练

model, tokenizer = FastLanguageModel.from_pretrained( "./deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", load_in_4bit=False, device_map="auto", dtype=None, full_finetuning=True # 关键参数 )

此时所有参数均可训练，显存占用显著上升。实测 RTX 3060（6GB）下峰值达5.2 GB，接近极限。

3.2 数据集加载与格式化

from datasets import load_from_disk train_dataset = load_from_disk("cleaned_dataset_v4.0.0") def formatting_prompts_func(examples): return {"text": examples["text"]} dataset = train_dataset.map(formatting_prompts_func, batched=True)

数据集共 674 条样本，适用于小规模垂直领域训练。

3.3 配置训练参数

training_args = TrainingArguments( per_device_train_batch_size=2, gradient_accumulation_steps=4, num_train_epochs=1, learning_rate=2e-5, fp16=True, logging_steps=1, output_dir="outputs", optim="adamw_8bit", save_strategy="steps", save_steps=20, )

注意学习率应比 LoRA 更低（如2e-5），避免灾难性遗忘。

3.4 启动训练与监控

trainer = SFTTrainer( model=model, tokenizer=tokenizer, train_dataset=dataset, dataset_text_field="text", args=training_args, callbacks=[swanlab_callback], ) trainer.train()

SwanLab 可清晰展示：

Loss 是否稳定下降
是否出现梯度爆炸（loss 突增）
每步耗时是否异常波动

4. 继续预训练实战：领域知识注入

对于专业领域应用，仅靠指令微调难以充分吸收领域术语和上下文逻辑。继续预训练（CPT）是一种有效的前置增强手段。

4.1 基座模型加载与 LoRA 配置

model, tokenizer = FastLanguageModel.from_pretrained( model_name="./deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", load_in_4bit=True, max_seq_length=2048, ) model = FastLanguageModel.get_peft_model( model, r=16, target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj", "embed_tokens", "lm_head"], # 注意包含 embedding 和 head lora_alpha=32, use_rslora=True, )

包含embed_tokens和lm_head可提升词汇表微调能力。

4.2 构建领域数据集

以电机选型为例，构造问答对并添加 EOS 标记：

EOS_TOKEN = tokenizer.eos_token cpt_prompt = """### question：{} ### answer：{} """ domain_data = [ {'q': '输送线的动力电机选型应优先考虑什么类型？', 'a': '时代超群交流伺服电机...'}, # ... ] dataset = [cpt_prompt.format(item['q'], item['a']) + EOS_TOKEN for item in domain_data]

保存为 Hugging Face Dataset 格式：

from datasets import Dataset import pandas as pd mydata = pd.Series(dataset) mydataset = Dataset.from_pandas(pd.DataFrame(mydata)) mydataset.save_to_disk("cleaned_dataset_cpt")

4.3 多阶段训练策略

采用UnslothTrainer支持更灵活的学习率控制：

trainer = UnslothTrainer( model=model, tokenizer=tokenizer, train_dataset=mydataset, dataset_text_field="text", args=UnslothTrainingArguments( per_device_train_batch_size=2, gradient_accumulation_steps=4, num_train_epochs=70, learning_rate=5e-5, embedding_learning_rate=1e-5, # 对 embed/lm_head 使用更低学习率 warmup_ratio=0.1, weight_decay=0.01, output_dir="outputs", report_to="none", ), callbacks=[swanlab_callback], ) trainer.train()

SwanLab 图表显示：

Embedding 层学习率被自动调整为1e-5
Loss 平稳下降，未出现震荡
训练后期收敛缓慢，提示可提前终止

4.4 指令微调接续

CPT 后接 SFT 微调，进一步提升任务表现：

trainer = UnslothTrainer( model=model, tokenizer=tokenizer, train_dataset=train_dataset, dataset_text_field="text", args=UnslothTrainingArguments( num_train_epochs=5, learning_rate=5e-5, embedding_learning_rate=1e-5, # 其他同上 ), callbacks=[swanlab_callback], ) trainer.train()

最终模型在电气工程类问题上表现出更强的专业性和逻辑严谨性。

5. 总结

本文系统展示了Unsloth + SwanLab在 LLM 微调中的完整应用流程，涵盖 LoRA 微调、全量微调与继续预训练三大典型场景。

核心价值总结

Unsloth 提升训练效率
- 显存占用降低 30%-70%
- 训练速度提升约 2 倍
- 支持 4-bit 量化与梯度检查点优化
SwanLab 增强可观测性
- 实时监控 loss、learning rate、throughput
- 自动记录超参与硬件资源使用
- 支持多实验对比分析，便于调优决策
工程实践建议
- 小批量调试优先：先用max_steps=30验证流程
- 分阶段训练：CPT → LoRA/SFT，逐步提升性能
- 推理参数调节：temperature=0.5~0.7,top_p=0.7~0.95
- 显存管理：小 batch + 梯度累积优于大 batch
避坑指南
- 全量微调极易 OOM，务必监控显存
- 数据未打乱可能导致 loss 波动
- 缺少 EOS token 会导致无限生成
- 学习率过高引发过拟合或遗忘