从VIPeR到TransReID：行人重识别（ReID）这十几年，技术路线到底是怎么演变的？-深圳市維司達科技有限公司

行人重识别技术演进史：从手工特征到Transformer的范式跃迁

在监控摄像头遍布城市的今天，如何让机器像人类一样准确识别不同摄像头下的同一行人？这个看似简单的需求背后，是计算机视觉领域持续演进了十余年的关键技术——行人重识别(ReID)。从最初基于颜色直方图的简单匹配，到如今融合Transformer的智能系统，ReID技术的发展折射出整个计算机视觉领域的范式转移。

1. 手工特征时代：ReID的奠基期（2006-2014）

2006年CVPR会议上，行人重识别首次作为独立研究课题被提出。次年问世的VIPeR数据集成为这一领域的里程碑，它包含632个行人从不同视角拍摄的1264张图像，尽管规模以今天的标准来看微不足道，却为早期研究提供了基准平台。

这一阶段的技术路线主要围绕手工设计特征+度量学习展开：

颜色特征：RGB/HSV直方图是最直观的表示方法，但对光照变化极其敏感
纹理特征：LBP（局部二值模式）能捕捉衣物纹理，但缺乏空间结构信息
形状特征：HOG（方向梯度直方图）描述轮廓，但对视角变化鲁棒性差

典型方法组合示例：

# 传统特征提取流程示例 def extract_features(image): color_hist = cv2.calcHist([image], [0,1,2], None, [8,8,8], [0,256,0,256,0,256]) gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) lbp = local_binary_pattern(gray, 8, 1) hog = hog_compute(gray) return np.concatenate([color_hist.flatten(), lbp.flatten(), hog])

手工特征时代的局限性显而易见：

特征类型	优势	缺陷
颜色直方图	计算简单，直观	对光照敏感，缺乏空间信息
LBP	纹理描述能力强	对噪声敏感
HOG	捕捉轮廓特征	视角变化时性能下降快

提示：这一时期的方法在CUHK01、Market-1501等早期数据集上mAP通常不超过20%，反映出传统方法在复杂场景中的局限性。

2. 深度学习革命：监督学习的黄金期（2015-2018）

2015年成为ReID技术的分水岭，AlexNet在ImageNet上的成功证明了深度学习在视觉任务中的潜力。ReID研究迅速转向深度神经网络，技术演进呈现三条主线：

2.1 损失函数的进化轨迹

ID分类损失：将ReID视为分类问题，每个行人为一类
验证损失：学习判断两张图像是否属于同一行人
三元组损失：让正样本对距离小于负样本对（引入难样本挖掘后效果显著提升）

# 典型的三元组损失实现 class TripletLoss(nn.Module): def __init__(self, margin=0.3): super().__init__() self.margin = margin def forward(self, anchor, positive, negative): pos_dist = F.pairwise_distance(anchor, positive) neg_dist = F.pairwise_distance(anchor, negative) loss = F.relu(pos_dist - neg_dist + self.margin) return loss.mean()

2.2 网络架构的创新

全局特征模型：ResNet50为基础网络，输出2048维全局特征
局部特征方法：
- PCB（Part-based Convolutional Baseline）将特征图水平分块
- MGN（Multiple Granularity Network）融合多粒度特征
注意力机制引入：SE模块、Non-local网络等开始应用于ReID

2.3 性能跃升的关键因素

大规模数据集出现（Market-1501、DukeMTMC等）
迁移学习成为标准实践
度量学习与分类损失的联合优化
数据增强策略的多样化

这一时期，在标准数据集上mAP指标从20%左右跃升至80%以上，验证了深度学习方法的有效性。下表展示了代表性方法的性能对比：

方法	发表年份	Market-1501 mAP	创新点
IDE	2015	44.0%	首次将CNN应用于ReID
SVDNet	2017	62.1%	引入奇异值分解
PCB	2018	77.3%	局部特征学习
MGN	2018	86.9%	多粒度网络

3. 后深度学习时代：多元化探索（2019-2023）

随着监督学习方法趋于成熟，研究者开始挑战更复杂的现实场景问题，技术发展呈现多点开花的局面。

3.1 无监督学习的突破

现实场景中标注数据稀缺催生了无监督方法的发展：

跨域适应：使用已标注源域数据训练，适配到未标注目标域
聚类伪标签：通过特征聚类生成伪标签进行自训练
对比学习：SimCLR、MoCo等框架在ReID中的创新应用

注意：无监督方法在跨摄像头场景下性能仍落后监督方法约15-20% mAP，但缩小了理论研究和实际应用的差距。

3.2 Transformer的冲击

2021年后，Vision Transformer开始重塑ReID技术栈：

纯Transformer架构：ViT、DeiT等直接应用于ReID
混合架构：CNN backbone+Transformer neck成为新趋势
自注意力机制：捕捉长距离依赖关系，优于传统CNN的局部感受野

# Transformer特征提取示例 class ViTReID(nn.Module): def __init__(self): super().__init__() self.vit = vit_base_patch16_224(pretrained=True) self.head = nn.Linear(768, 256) def forward(self, x): features = self.vit.forward_features(x) return self.head(features[:, 0]) # 取[CLS] token