SAM3进阶教程：自定义模型训练全流程-深圳市維司達科技有限公司

SAM3进阶教程：自定义模型训练全流程

1. 技术背景与学习目标

随着计算机视觉技术的不断演进，图像分割已从传统的语义分割、实例分割发展到**提示式万物分割（Promptable Segmentation）**时代。SAM3（Segment Anything Model 3）作为该领域的前沿成果，支持通过文本、点、框等多种提示方式实现“开箱即用”的零样本分割能力。

本文聚焦于如何在已有SAM3推理镜像的基础上，进一步完成自定义数据集下的模型微调与训练全流程，帮助开发者将通用模型转化为面向特定场景（如医疗影像、工业检测、遥感识别等）的专业化分割工具。

读者学完本教程后将掌握：

如何准备符合SAM3格式的标注数据
搭建本地训练环境并加载预训练权重
实现LoRA轻量化微调策略
验证与导出定制化模型
将新模型集成回Web界面进行可视化测试

2. 训练前准备：环境配置与代码结构解析

2.1 开发环境说明

本训练流程基于与推理镜像一致的高性能生产环境构建，确保训练-部署无缝衔接：

组件	版本
Python	3.12
PyTorch	2.7.0+cu126
CUDA / cuDNN	12.6 / 9.x
代码路径	`/root/sam3`
推荐GPU显存	≥16GB（单卡A100或双卡RTX 4090）

重要提示
若使用云实例，请选择至少配备16GB显存的GPU资源以支持全参数微调；若仅进行LoRA微调，8GB显存亦可运行。

2.2 项目目录结构详解

进入代码根目录/root/sam3后，主要文件和子模块如下：

sam3/ ├── data/ # 自定义数据集存放路径 ├── models/ # 主干模型与适配器权重存储 │ ├── sam3_h.pt # 原始预训练权重（Huge规模） │ └── lora_adapter/ # LoRA微调权重保存路径 ├── training/ # 训练核心脚本 │ ├── trainer.py # 主训练逻辑 │ ├── dataset.py # 数据加载器 │ └── config.yaml # 训练超参配置 ├── webui/ # Gradio交互界面源码 └── utils/ # 工具函数（掩码编码、提示生成等）

建议新建虚拟环境并安装依赖：

cd /root/sam3 python -m venv venv source venv/bin/activate pip install -r requirements-train.txt

3. 数据集构建：从原始图像到SAM3训练样本

3.1 数据格式要求

SAM3采用统一的提示-掩码对（prompt-mask pair）进行监督学习。每条训练样本需包含：

原始RGB图像（.jpg或.png）
对应的二值掩码图（单通道.png，像素值0为背景，255为目标区域）
文本提示（英文描述，如"defect on metal surface"）

3.2 标注工具推荐与流程

推荐使用以下任意一种标注工具生成高质量掩码：

LabelMe：支持多边形标注，可导出JSON
VIA (VGG Image Annotator)：纯前端工具，无需安装
CVAT：企业级自动化标注平台

示例标注输出转换

假设你使用LabelMe获得一个JSON标注文件，可通过以下脚本将其转为SAM3所需格式：

import json import numpy as np from PIL import Image import os def convert_labelme_to_mask(json_path, output_dir): with open(json_path, 'r') as f: data = json.load(f) img_height = data['imageHeight'] img_width = data['imageWidth'] mask = np.zeros((img_height, img_width), dtype=np.uint8) for shape in data['shapes']: points = np.array(shape['points'], dtype=np.int32) label = shape['label'] # 提取文本提示 cv2.fillPoly(mask, [points], 255) # 保存掩码图像 mask_img = Image.fromarray(mask) mask_img.save(os.path.join(output_dir, 'masks', data['imagePath'].replace('.jpg', '_mask.png'))) # 保存prompt文本 with open(os.path.join(output_dir, 'prompts', data['imagePath'].replace('.jpg', '.txt')), 'w') as txt_f: txt_f.write(label) # 调用示例 convert_labelme_to_mask('/path/to/annotation.json', '/root/sam3/data/my_dataset')

3.3 数据组织规范

最终数据应按如下结构组织：

data/my_dataset/ ├── images/ │ ├── img1.jpg │ └── img2.jpg ├── masks/ │ ├── img1_mask.png │ └── img2_mask.png └── prompts/ ├── img1.txt # 内容："crack" └── img2.txt # 内容："rust spot"

4. 模型微调：LoRA策略实现高效训练

4.1 为什么选择LoRA？

SAM3主干网络参数量高达数亿，直接全量微调成本极高且易过拟合。我们采用**低秩适配（Low-Rank Adaptation, LoRA）**策略，在不修改原始权重的前提下，仅训练少量新增参数即可实现性能提升。

LoRA的核心思想是：在Transformer层的注意力矩阵中插入低秩分解矩阵 $ AB $，其中 $ A \in \mathbb{R}^{d \times r}, B \in \mathbb{R}^{r \times d} $，$ r \ll d $。

4.2 配置训练参数

编辑training/config.yaml文件：

model: checkpoint: "models/sam3_h.pt" model_type: "huge" data: dataset_dir: "/root/sam3/data/my_dataset" image_size: 1024 batch_size: 4 num_workers: 4 train: epochs: 50 lr: 1e-4 weight_decay: 0.01 warmup_steps: 100 save_interval: 5 use_lora: True lora_rank: 8 device: gpu_ids: [0] precision: "fp16" # 使用混合精度加速

4.3 启动训练任务

执行以下命令开始训练：

cd /root/sam3 source venv/bin/activate python training/trainer.py --config training/config.yaml

训练过程中会实时输出日志：

Epoch 1/50 | Step 10/100 | Loss: 0.342 | MaskIoU: 0.61 | LR: 1.00e-04 Saving checkpoint to models/lora_adapter/epoch_5.pt...

建议监控Loss下降趋势及Mask IoU上升情况，通常在10~20个epoch内即可收敛。

5. 模型验证与集成部署

5.1 在验证集上评估性能

训练完成后，使用内置验证脚本测试模型效果：

python training/evaluator.py \ --checkpoint models/lora_adapter/epoch_50.pt \ --data-dir /root/sam3/data/my_dataset \ --output-dir /root/sam3/results/visualizations

输出指标包括：

Mean IoU：平均交并比
Precision/Recall：分割准确率与召回率
F1 Score：综合评价指标

同时生成可视化结果图，便于人工判断边缘贴合度。

5.2 将微调模型集成至WebUI

为了让新模型能在Gradio界面上使用，需将其注入原生推理流程。

编辑webui/app.py中的模型加载部分：

from segment_anything import build_sam3 from lora import inject_lora_weights # 加载基础模型 model = build_sam3(checkpoint="models/sam3_h.pt") # 注入LoRA权重 inject_lora_weights(model, "models/lora_adapter/epoch_50.pt") # 设置为推理模式 model.eval().cuda()

重启服务使更改生效：

/bin/bash /usr/local/bin/start-sam3.sh

刷新Web页面后，输入针对特定领域的提示词（如"welding defect"），即可看到模型对目标物体的精准响应。

6. 总结

6.1 核心收获回顾

本文系统讲解了基于SAM3实现自定义模型训练的完整闭环流程，涵盖：

数据准备：从标注到格式转换的标准范式
高效训练：采用LoRA策略降低资源消耗，提升训练稳定性
性能验证：通过定量指标与可视化双重手段评估模型质量
无缝集成：将微调后的模型重新嵌入Web交互界面，实现端到端应用

6.2 最佳实践建议

小样本起步：初期可用50~100张高质量标注图像快速验证可行性
Prompt工程优化：统一命名规范（如全小写、避免歧义词），提升泛化能力
定期备份权重：利用save_interval参数保留多个检查点，防止意外中断
结合主动学习：将模型不确定的样本反馈给人工复核，形成迭代优化闭环

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

SAM3进阶教程：自定义模型训练全流程