Retinaface+CurricularFace模型训练指南：从数据准备到模型微调-深圳市維司達科技有限公司

Retinaface+CurricularFace模型训练指南：从数据准备到模型微调

想训练一个能精准识别你身边朋友、同事甚至家人的AI模型吗？今天我们就来聊聊怎么从零开始，一步步训练一个属于你自己的人脸识别模型。你可能听说过Retinaface负责“找人”，CurricularFace负责“认人”，但把它们组合起来训练，里面有不少门道。

这篇文章不会讲太多复杂的数学公式，咱们就从一个工程师的角度出发，看看怎么准备数据、怎么调整模型、怎么避开训练里常见的坑。整个过程就像教一个小朋友认人，你得先给他看足够多、足够清晰的“照片”，然后告诉他怎么区分不同的人，最后再不断测试他学得怎么样。

准备好了吗？我们这就开始。

1. 训练前，先搞清楚我们要做什么

在动手写代码之前，我们得先明白Retinaface和CurricularFace各自扮演什么角色，以及把它们绑在一起训练到底是为了什么。这能帮你后面少走很多弯路。

简单来说，你可以把整个流程想象成一个流水线。Retinaface是流水线的第一个工人，它的任务是从一张乱七八糟的照片里，把脸找出来，并且摆正。想象一下，你给AI看一张集体照，Retinaface的工作就是迅速地把里面每一张脸都框出来，并且把歪头、侧脸都尽量“掰正”成标准的正面照。

接着，这张被摆正的脸会传给下一个工人——CurricularFace。这位工人的任务就高级多了，它要看这张脸，然后把它变成一串数字（我们叫它“特征向量”）。这串数字就像是这张脸的“身份证号码”，同一个人的脸，不管他换了个发型还是戴了眼镜，这串数字都应该非常相似；而不同人的脸，这串数字就应该差别很大。

那么，为什么要把它们放在一起训练呢？最常见的原因是你想让这个“找脸”和“认脸”的流水线配合得更好。也许你业务场景里的照片光线特别暗，或者人脸特别小，通用的Retinaface模型找不准。这时候，你用自己场景的数据同时训练这两个部分，Retinaface就能学会在你这种特殊照片里更准地找到脸，而CurricularFace也能学会从这些“困难户”脸上提取更鲁棒的特征。最终的结果就是，整个系统的识别准确率会更高。

所以，我们这次训练的目标很明确：不是从零发明一个新算法，而是用一个现成的、强大的组合模型，喂给它我们自己的数据，让它变得更懂我们的特定场景。

2. 第一步：准备你的“教材”——数据集

训练模型就像教学生，教材的质量直接决定学生的水平。对于人脸识别来说，你的数据集就是教材。这部分工作可能占了整个项目70%的精力，但绝对值得。

2.1 数据从哪里来？

你首先得有一批带标签的人脸图片。标签的意思就是，每一张图片都得知道它是谁的脸。来源主要有这么几个：

公开数据集：比如CASIA-WebFace、MS-Celeb-1M、VGGFace2。这些数据集动辄几十万、上百万张图片，人物身份也多，是打基础的好材料。你可以先用这些大数据集做“预训练”，让模型先有一个基本的认人能力。
业务自有数据：这是最关键的部分。比如你要做一个公司内部的打卡系统，那你就需要收集所有员工的人脸照片。这些数据最贴合你的实际场景，训练出来的模型效果也最好。
网络爬取数据：如果需要识别公众人物，这可能是一个途径，但务必注意法律法规和肖像权问题，谨慎使用。

对于我们的教程，我建议采用一种混合策略：用一个大的公开数据集做基础预训练，然后再用你精心准备的小规模业务数据做精细调整（微调）。这样既能保证模型的通用能力，又能让它特别擅长你的任务。

2.2 数据长什么样？——认识你的数据格式

你的数据不能是一堆散乱的图片。通常，我们需要一个结构清晰的文件夹和一个说明文件。

一种常见的格式是这样的：

your_dataset_root/ ├── person_001/ │ ├── 001_001.jpg │ ├── 001_002.jpg │ └── ... ├── person_002/ │ ├── 002_001.jpg │ └── ... ├── ... └── meta.txt (或 train.txt / label.txt)

每个子文件夹代表一个人（一个类别），里面是这个人的多张照片。meta.txt文件则记录了所有图片的路径和对应的标签（通常是数字ID），例如：

person_001/001_001.jpg 0 person_001/001_002.jpg 0 person_002/002_001.jpg 1 ...

2.3 给数据“化妆”——数据清洗与增强

原始数据往往有很多问题，直接扔给模型效果会很差。我们必须先“清洗”和“增强”它们。

数据清洗主要是把坏样本踢出去：

模糊或极低分辨率的脸：根本看不清，学了也没用。
严重遮挡的脸：戴了大口罩、墨镜，或者被手挡住大半的。
极端角度：几乎纯侧脸或后脑勺，Retinaface都很难检测正。
标签错误：这是最致命的，一定要人工抽查，确保“张三”的图片没有被标成“李四”。

数据增强则是人工制造更多的“教材”，让模型见识更广，更不容易认死理。对于人脸，常用的增强方法有：

随机水平翻转：脸是对称的，翻转一下能增加数据量，还能让模型不纠结于左脸右脸。
随机旋转、平移、缩放：模拟人脸在图像中位置和角度的微小变化。
颜色抖动：调整亮度、对比度、饱和度，模拟不同光线和拍摄设备的影响。
添加随机噪声或模糊：让模型对低质量图片也有抵抗力。

在代码里，我们可以用PyTorch的torchvision.transforms轻松实现一个增强管道：

import torchvision.transforms as transforms # 定义一个训练时用的数据增强流程 train_transform = transforms.Compose([ transforms.RandomHorizontalFlip(p=0.5), # 50%概率水平翻转 transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), # 颜色抖动 transforms.RandomRotation(degrees=10), # 随机旋转10度以内 transforms.ToTensor(), # 最终转为Tensor transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]) # 归一化 ]) # 验证或测试时，我们通常不需要增强，只需要简单的预处理 val_transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5]) ])

记住一个原则：增强是在训练时实时进行的，而不是预先处理好存下来。这样每一轮训练模型看到的“教材”都略有不同，学习效果更好。

3. 搭建训练流水线

数据准备好了，接下来就是搭建训练的舞台。这里涉及到怎么读数据、怎么定义模型、以及最重要的——怎么计算模型“错在哪”（损失函数）。

3.1 让模型能吃到数据——构建DataLoader

我们需要一个工具，能按照我们设定的“食谱”（批量大小、是否打乱顺序）把数据一批批地喂给模型。PyTorch的DataLoader就是干这个的。

首先，我们定义一个继承自torch.utils.data.Dataset的类：

import torch from torch.utils.data import Dataset, DataLoader from PIL import Image import os class FaceDataset(Dataset): def __init__(self, data_root, meta_file, transform=None): self.data_root = data_root self.transform = transform self.samples = [] with open(meta_file, 'r') as f: for line in f: img_path, label = line.strip().split() self.samples.append((img_path, int(label))) def __len__(self): return len(self.samples) def __getitem__(self, idx): img_path, label = self.samples[idx] full_path = os.path.join(self.data_root, img_path) # 加载图片 image = Image.open(full_path).convert('RGB') if self.transform: image = self.transform(image) return image, label # 创建数据集和数据加载器 train_dataset = FaceDataset(data_root='your_dataset_root', meta_file='your_dataset_root/meta.txt', transform=train_transform) train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True, num_workers=4)

DataLoader会帮我们自动处理分批、打乱顺序，甚至用多个进程并行加载数据，让GPU不用等待。

3.2 组装我们的模型

现在，我们把Retinaface（检测器）和CurricularFace（识别器）组装起来。幸运的是，有很多开源实现我们可以直接使用或参考。这里我们假设使用一个常见的PyTorch实现。

关键点在于，训练时数据流是怎样的？通常有两种策略：

端到端训练：输入一张原始大图，Retinaface检测出人脸并裁剪对齐，然后直接将裁剪后的小图送给CurricularFace提取特征并计算损失。这种方式能让两个模块联合优化，但实现复杂，训练也更慢。
两阶段训练：这是更常见、更稳定的方法。我们先用Retinaface把所有训练图片中的人脸都检测、对齐并裁剪好，保存成112x112的标准人脸图。然后，我们只用这些裁剪好的人脸图来训练CurricularFace模型。本教程主要采用这种策略，因为它简单、高效，且易于调试。

所以，我们的“模型”在训练时，主要指的就是CurricularFace特征提取网络。我们需要加载它的预训练权重。

import torch.nn as nn # 假设我们有一个现成的CurricularFace模型定义类 from curricularface_model import CurricularFaceModel device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = CurricularFaceModel(embedding_size=512, num_classes=1000).to(device) # num_classes先设一个大的，后面会根据你的数据改 # 加载预训练权重（如果有的化） pretrained_dict = torch.load('curricularface_pretrained.pth') model.load_state_dict(pretrained_dict, strict=False) # strict=False允许忽略一些不匹配的键（比如分类头）

3.3 理解“教练”的教法——损失函数

损失函数告诉模型它预测得“有多错”。对于人脸识别，我们不是简单地把人脸分成A、B、C类，而是希望模型学习一个特征空间，使得同一个人的脸离得近，不同人的脸离得远。这就需要特殊的损失函数。

CurricularFace Loss就是一种非常先进的损失函数。你可以把它理解为一种更聪明的“老师”。在训练初期，它专注于区分那些容易混淆的样本（比如长得有点像的两个人）；随着训练进行，它会逐渐引入更难的样本对，让模型持续学习更细微的差别。这种“课程式”的学习方式，往往能获得更好的特征。

在代码中，它通常这样使用：

from curricularface_loss import CurricularFaceLoss # 假设你的训练集有500个不同的人 num_classes = 500 embedding_size = 512 # 初始化损失函数， margin和scale是超参数，通常默认就很好 criterion = CurricularFaceLoss(embedding_size=embedding_size, num_classes=num_classes, margin=0.5, scale=64).to(device) # 在训练循环中 features = model(images) # 模型提取特征 loss = criterion(features, labels) # 计算损失

你需要根据自己数据集中的人数来设置num_classes。margin和scale参数一般不用大动，用论文推荐的或默认值就行。

4. 开始训练：参数与技巧

一切就绪，可以开始训练了。这里有一些参数和技巧能帮你训练得更顺利。

4.1 配置训练参数

import torch.optim as optim # 优化器：负责根据损失来更新模型参数 optimizer = optim.Adam(model.parameters(), lr=1e-4, weight_decay=5e-4) # 学习率调度器：训练过程中动态降低学习率，让模型后期收敛得更稳 scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=100, eta_min=1e-6) epochs = 100 batch_size = 64

学习率（lr）：这是最重要的超参数。太大容易“跑飞”，太小学得慢。1e-4对于微调任务是个不错的起点。
优化器：Adam对于人脸识别任务很常用，它自适应调整学习率，省心。
学习率调度：CosineAnnealingLR让学习率像余弦曲线一样从初始值平滑下降到接近0，效果通常很好。
训练轮数（epochs）：取决于数据集大小。要观察验证集损失，当损失不再下降甚至上升时（过拟合），就该停止了。

4.2 编写训练循环

训练循环是核心，它反复执行“前向预测 -> 计算损失 -> 反向传播 -> 更新参数”这个过程。

def train_one_epoch(model, dataloader, criterion, optimizer, device, epoch): model.train() running_loss = 0.0 for batch_idx, (images, labels) in enumerate(dataloader): images, labels = images.to(device), labels.to(device) # 清零梯度 optimizer.zero_grad() # 前向传播 features = model(images) loss = criterion(features, labels) # 反向传播 loss.backward() # 更新参数 optimizer.step() running_loss += loss.item() if batch_idx % 50 == 0: print(f'Epoch [{epoch}], Step [{batch_idx}/{len(dataloader)}], Loss: {loss.item():.4f}') avg_loss = running_loss / len(dataloader) return avg_loss # 主训练循环 for epoch in range(epochs): train_loss = train_one_epoch(model, train_loader, criterion, optimizer, device, epoch) # 每个epoch后，可以在验证集上评估一下准确率 val_acc = evaluate_on_validation_set(model, val_loader, device) print(f'Epoch {epoch} finished. Train Loss: {train_loss:.4f}, Val Acc: {val_acc:.4f}') # 更新学习率 scheduler.step()

4.3 你必须关注的训练技巧

监控验证集：一定要留出一部分数据（比如10%-20%）作为验证集，绝对不要用它在训练。每训练几轮就在验证集上测试一下准确率，这是判断模型是否过拟合、是否需要早停的唯一可靠依据。
保存最佳模型：不要只保存最后一个模型。写个逻辑，当验证集准确率创下新高时，就把当前模型参数保存下来。
```
if val_acc > best_acc: best_acc = val_acc torch.save(model.state_dict(), 'best_model.pth')
```
尝试混合精度训练：如果你的GPU支持（比如NVIDIA的Tensor Cores），使用torch.cuda.amp进行混合精度训练，可以大幅减少显存占用，并可能加快训练速度。
数据不平衡怎么办？：如果你的数据里，有的人有100张照片，有的人只有5张，模型会偏向于照片多的人。可以考虑使用“困难样本挖掘”或者在损失函数中给少数类别增加权重。

5. 模型评估与测试

训练完成后，我们怎么知道这个模型到底行不行？不能光看训练损失，得拉出来遛遛。

5.1 准备测试集

测试集应该是完全独立的、模型在训练和验证过程中从未见过的数据。它应该模拟真实的应用场景。例如，你可以收集一些新的、在不同光线、角度下拍摄的同一批人的照片。

5.2 如何进行人脸验证测试？

人脸识别任务通常用“人脸验证”来评估，即判断两张脸是不是同一个人。我们计算两张脸特征向量的余弦相似度。

def verify_faces(model, img1_path, img2_path, transform, device, threshold=0.5): model.eval() # 将模型设置为评估模式 with torch.no_grad(): # 不计算梯度，节省内存和计算 # 加载并预处理两张图片 img1 = transform(Image.open(img1_path).convert('RGB')).unsqueeze(0).to(device) img2 = transform(Image.open(img2_path).convert('RGB')).unsqueeze(0).to(device) # 提取特征 feat1 = model(img1) feat2 = model(img2) # 计算余弦相似度 similarity = torch.cosine_similarity(feat1, feat2).item() # 根据阈值判断 is_same = similarity > threshold return similarity, is_same

这里的threshold（阈值）是关键。设得太高，同一个人可能被拒识；设得太低，不同的人可能被误认。这个阈值需要在你的测试集上反复调整，找到一个平衡点。

5.3 使用标准评测协议

为了科学地评估，建议使用像LFW（Labeled Faces in the Wild）、CFP-FP、Agedb-30这样的标准人脸验证测试集。在这些集上测试，并报告准确率（Accuracy）或真正率（True Accept Rate）等指标，可以客观地衡量你的模型水平，也方便和别人比较。

6. 一些常见问题与避坑指南

训练过程中，你肯定会遇到一些问题。这里列举几个常见的：

损失不下降或震荡：首先检查学习率是不是太大了。尝试把学习率调小一个数量级（比如从1e-4调到1e-5）。其次，检查数据标签是否正确，错误标签是“毒药”。最后，确保数据增强没有过度，导致图片面目全非。
验证集准确率远低于训练集（过拟合）：这是最典型的问题。说明模型只记住了训练数据，没有学会泛化。解决办法：1) 增加数据量或数据增强的多样性；2) 在模型中添加Dropout层；3) 使用更强的权重衰减（weight_decay）；4) 尽早停止训练（Early Stopping）。
显存不足（OOM）：减小batch_size是最直接的方法。也可以尝试使用梯度累积：多次前向传播累积梯度，再一次性更新参数，模拟大batch的效果。
训练速度慢：确保使用了DataLoader的num_workers参数（通常设为CPU核心数），并且数据存储在SSD上。检查GPU利用率是否接近100%。

训练一个好用的人脸识别模型，确实需要耐心和反复实验。整个过程最花时间的往往不是跑代码，而是准备高质量的数据和调整各种参数。别指望一次就能调出最好的结果，多跑几次实验，记录下每次的参数和结果，慢慢你就能找到感觉。

回头看看，我们从准备数据开始，一步步搭建管道、定义损失、调整参数，直到最后评估模型。整个流程走下来，你应该对如何定制一个人脸识别模型有了比较实在的把握。最关键的是，你亲手处理了数据，看到了模型从“不会”到“会”的学习过程，这种经验比单纯调用一个API要宝贵得多。

接下来，你可以尝试用自己训练好的模型，替换掉某个开源人脸识别系统中的默认模型，看看在实际应用里效果提升有多少。或者，挑战一下更难的场景，比如戴口罩的人脸识别，那又是另一个有趣的故事了。