
摘要
尽管伪标签(pseudo-label)方法在半监督目标检测任务中已展现出显著成效,本文揭示了该方法存在的一些显著局限性。具体而言,伪标签方法倾向于放大检测器的固有优势,同时加剧其固有缺陷,表现为对小尺寸物体及长尾类别物体的伪标签检测遗漏问题尤为突出。为克服上述挑战,本文提出一种名为“混合伪标签”(Mixed Pseudo Labels, MixPL)的新方法,该方法结合了Mixup与Mosaic数据增强策略,用于生成伪标签数据,以缓解漏检带来的负面影响,并有效平衡模型在不同物体尺度上的学习能力。此外,通过引入与长尾类别相关的样本进行有放回重采样,进一步提升了模型在长尾类别上的检测性能。值得注意的是,MixPL在多种主流检测器上均表现出一致的性能提升,在COCO-Standard与COCO-Full基准测试中,分别在Faster R-CNN、FCOS和DINO等模型上取得了新的SOTA(state-of-the-art)结果。同时,该方法在大模型上也展现出良好的可扩展性:在DINO Swin-L模型上实现了2.5%的mAP提升,并在未使用额外标注的情况下,在COCO val2017基准上取得了60.2% mAP的显著新纪录。