
摘要
我们提出了一种名为“Cut-and-LEaRn”(简称CutLER)的简单方法,用于训练无监督物体检测和分割模型。该方法利用了自监督模型在无需人工标注的情况下“发现”物体的特性,并将其放大以训练出最先进的定位模型而无需任何人类标签。CutLER首先使用我们提出的MaskCut方法为图像中的多个物体生成粗略的掩码,然后通过我们的鲁棒损失函数在这些掩码上学习一个检测器。我们进一步通过自训练模型来提高其性能,即让模型基于自身的预测进行训练。与先前的工作相比,CutLER更加简单,兼容不同的检测架构,并且能够检测多个物体。此外,CutLER是一个零样本无监督检测器,在11个不同领域的基准测试中(如视频帧、绘画、素描等),其检测性能AP50提高了超过2.7倍。经过微调后,CutLER作为少量样本检测器,在使用5%标签进行训练时,其APbox和APmask指标分别超过了MoCo-v2 7.3%和6.6%,在COCO数据集上的表现尤为突出。