Cityscapes数据集深度解析：除了语义分割，它的实例分割标注怎么用？-深圳市維司達科技有限公司

Cityscapes数据集深度解析：实例分割标注的隐藏价值与应用实践

在计算机视觉领域，Cityscapes数据集早已成为语义分割任务的标准基准之一。但许多开发者可能没有意识到，这个数据集还包含了丰富的实例级标注信息，能够支持更复杂的视觉任务。当你打开gtFine文件夹时，那些看似普通的instanceIds.png和polygons.json文件实际上蕴含着城市街景中每个独立物体的精确边界和身份信息。

1. 深入理解Cityscapes的标注体系

Cityscapes数据集的核心价值不仅在于其高质量的图像采集，更在于其精细的多层次标注系统。与常见的单层标注不同，它采用了三维标注体系：

语义层（labelIds.png）：标记每个像素的类别归属
实例层（instanceIds.png）：区分同类物体的不同个体
几何层（polygons.json）：保存物体的精确多边形边界

1.1 实例ID的编码奥秘

instanceIds.png文件采用了一种巧妙的编码方案：

instance_id = (class_id << 8) + object_id

其中：

class_id：与语义分割共享的类别编号（0-33）
object_id：同类物体的唯一标识（1-255）

这种编码方式使得单个文件既能保持与语义标注的一致性，又能存储实例信息。例如：

像素值	二进制表示	解析结果
0x0101	00000001 00000001	类别1的第1个实例
0x0102	00000001 00000010	类别1的第2个实例
0x0201	00000010 00000001	类别2的第1个实例

1.2 多边形标注的细节解析

polygons.json文件包含了人工标注的原始矢量数据，其结构为：

{ "imgHeight": 1024, "imgWidth": 2048, "objects": [ { "label": "car", "polygon": [[x1,y1], [x2,y2], ...], "id": 260 // 与instanceIds.png对应的编码 } ] }

提示：多边形数据特别适合需要精确边界定位的任务，如自动驾驶中的碰撞检测。

2. 从语义分割到实例分割的转换实战

大多数预训练模型直接使用labelTrainIds.png文件，但实例分割需要更复杂的处理流程。

2.1 生成实例训练标签

使用官方工具包转换实例标注：

python cityscapesscripts/preparation/createTrainIdInstanceImgs.py

这个脚本会生成两种关键文件：

instanceTrainIds.png：标准化后的实例ID图像
instanceIds.png：原始实例ID图像

转换前后的对比：

特性	原始instanceIds	转换后instanceTrainIds
类别ID范围	0-33	0-18（可训练类别）
背景处理	保留所有类别	非常见类别设为255
兼容性	适合评估	适合训练

2.2 自定义类别映射

修改labels.py实现个性化类别设置：

labels = [ # name id trainId category catId hasInstances Label('road', 0, 0, 'flat', 0, False), Label('person', 24, 1, 'human', 1, True), # 将不需要的类别标记为忽略 Label('fence', 13, 255, 'construction', 2, True), ]

关键参数说明：

trainId=255：表示忽略该类别
hasInstances=True：该类别需要实例区分

3. 实例标注在高级任务中的应用

3.1 训练Mask R-CNN模型

Cityscapes的实例标注天然适配Mask R-CNN这类两阶段检测器。数据加载器的关键实现：

def __getitem__(self, idx): image = Image.open(self.image_paths[idx]) instance_map = np.array(Image.open(self.instance_paths[idx])) # 解码实例ID class_ids = instance_map >> 8 object_ids = instance_map & 0xFF # 生成mask和bbox masks = [] boxes = [] for obj_id in np.unique(object_ids): if obj_id == 0: continue # 跳过背景 mask = (object_ids == obj_id) masks.append(mask) pos = np.where(mask) xmin, ymin = np.min(pos[1]), np.min(pos[0]) xmax, ymax = np.max(pos[1]), np.max(pos[0]) boxes.append([xmin, ymin, xmax, ymax]) return image, {"masks": masks, "boxes": boxes}

3.2 车辆计数与流量分析

利用实例ID可以轻松实现特定类别的数量统计：

def count_vehicles(instance_map): vehicle_classes = [11, 12, 13, 14, 15, 16] # 车辆相关类别 instance_ids = instance_map & 0xFF class_ids = instance_map >> 8 vehicle_mask = np.isin(class_ids, vehicle_classes) return len(np.unique(instance_ids[vehicle_mask]))

这种方法相比基于检测的方法具有天然优势：

不受遮挡影响（同一实例保持相同ID）
无需额外训练（直接使用标注信息）
像素级精确统计

4. 超越分割：全景理解与多任务学习

Cityscapes的丰富标注支持更复杂的全景分割任务，即同时解决语义分割和实例分割。这里提供一个多任务头网络的设计示例：

class MultiTaskHead(nn.Module): def __init__(self, in_channels, num_classes): super().__init__() # 语义分割头 self.semantic = nn.Sequential( nn.Conv2d(in_channels, 256, 3, padding=1), nn.ReLU(), nn.Conv2d(256, num_classes, 1) ) # 实例中心点预测 self.center = nn.Sequential( nn.Conv2d(in_channels, 256, 3, padding=1), nn.ReLU(), nn.Conv2d(256, 1, 1), nn.Sigmoid() ) # 实例偏移量预测 self.offset = nn.Sequential( nn.Conv2d(in_channels, 256, 3, padding=1), nn.ReLU(), nn.Conv2d(256, 2, 1) ) def forward(self, x): return { 'semantic': self.semantic(x), 'center': self.center(x), 'offset': self.offset(x) }

训练时的损失函数组合：

def multi_task_loss(outputs, targets): # 语义分割损失 sem_loss = F.cross_entropy(outputs['semantic'], targets['semantic']) # 实例中心点损失 center_loss = F.binary_cross_entropy(outputs['center'], targets['center']) # 实例偏移量损失 offset_loss = F.smooth_l1_loss(outputs['offset'], targets['offset']) return sem_loss + center_loss + offset_loss

在实际项目中，这种多任务学习方法可以将语义分割的mIoU提升2-3个百分点，同时获得准确的实例区分能力。