一、引言:从“闭集牢笼”到“开放世界”——目标检测的范式革命
如果你正在看这篇文章,大概率已经踩过一个坑:辛辛苦苦训练了一个 YOLOv8 模型,上线后发现有一种新类型的目标需要检测,于是又重新标注数据、重新训练、重新部署……这种“有多少类就跑多少次流水线”的痛苦,正是传统封闭词表(Closed-Set)目标检测的根本瓶颈。
传统的 YOLOv8 检测器在训练时就将类别空间写死在最后一层全连接层的输出维度上——COCO 就是 80 类,你的自定义数据集就是 N 类,推理时不能动态新增任何类别。你给classes.txt只是把 ID 映射成人名,模型根本没有学会“识别新概念”的能力。
开放词表目标检测(Open-Vocabulary Object Detection, OVD)的出现,彻底打破了这面墙。它的核心思路是:将检测器的分类头替换为视觉特征与文本嵌入之间的相似度匹配。你用自然语言描述想要检测的目标(比如“穿红色雨衣骑电动车逆行者”),模型从 CLIP 等视觉-语言模型的联合嵌入空间中提取文本特征,再与检测网络输出的视觉特征做余弦相似度计算,超过阈值的目标即被检出。
这一范式变革在 2025-2026 年迎来了井喷式发展。从腾讯 AI Lab 的 YOLO-World,到 Ultralytics 官方推出的 YOLOE,再到 YOLO-UniOW 将开放世界与开放词表统一,以及社区中大量关于 YOLOv8+CLIP 的微调实践——整个生态正在从“检测已知”向“识别万物”快速演进。