
摘要
在现代目标检测器的训练过程中,一个关键瓶颈在于需要大量带有标注的图像,即必须为图像中每一个目标手动标注边界框。这一瓶颈在航拍图像中尤为突出,因为航拍图像通常具有高分辨率,且目标尺寸小、分布密集,导致标注人员需对大量细小目标进行标注,工作量巨大。近年来,基于伪标签(pseudo-labels)与弱-强增强一致性(weak-strong augmentation consistency)的“均值教师”(mean-teacher)方法在半监督目标检测领域逐渐受到青睐。然而,直接将此类半监督检测器应用于存在大量小尺寸密集目标的航拍图像场景,往往难以取得理想效果。本文提出一种基于密度区域裁剪引导(density crop-guided)的半监督目标检测方法。该方法在训练阶段能够识别出小目标聚集区域(即密度区域),并利用这些区域增强训练数据,从而提升对小目标的检测能力,并为未标注图像生成更高质量的伪标签。具体而言,模型从已标注和未标注图像中识别出的小目标密集区域提取图像裁剪块,作为训练数据的补充,显著提高了对小目标的检测概率,并改善了伪标签的质量。在推理阶段,该检测器不仅能够识别目标本身,还能主动定位图像中高密度的小目标区域(密度裁剪块),并将原始图像的检测结果与各密度裁剪块的检测结果进行融合,从而实现更精确的整体目标预测,尤其在小目标检测方面表现显著提升。在VisDrone和DOTA两个主流航拍目标检测基准上的实证研究表明,所提出的密度裁剪引导半监督检测方法在COCO风格的平均精度(AP)上相较基础的均值教师方法平均提升超过2%。相关代码已开源,地址为:https://github.com/akhilpm/DroneSSOD。