8 个月前

摘要

我们的目标是推进开放词汇对象检测技术的发展，该技术能够检测由任意文本输入描述的对象。主要挑战在于训练数据的可用性。进一步扩大现有对象检测数据集中类别的数量成本高昂。为了解决这一挑战，我们提出了ViLD（Vision and Language knowledge Distillation），一种通过视觉和语言知识蒸馏的训练方法。我们的方法将预训练的开放词汇图像分类模型（教师模型）的知识蒸馏到一个两阶段检测器（学生模型）中。具体而言，我们使用教师模型对类别文本和对象提议的图像区域进行编码。然后，我们训练一个学生检测器，使其检测框的区域嵌入与教师模型推断出的文本和图像嵌入对齐。我们在LVIS数据集上进行了基准测试，将所有罕见类别作为未在训练过程中见过的新类别。ViLD使用ResNet-50骨干网络获得了16.1的mask AP $r$ ，甚至超过了监督方法3.8个点。当使用更强的教师模型ALIGN进行训练时，ViLD达到了26.3的AP $_r$ 。该模型可以直接迁移到其他数据集而无需微调，在PASCAL VOC上实现了72.2的AP ${50}$ ，在COCO上实现了36.6的AP，在Objects365上实现了11.8的AP。在COCO数据集上，ViLD在新类别AP方面比之前的最先进方法高出4.8，在总体AP方面高出11.4。代码和演示已开源至https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild。