2 个月前

基于视觉和语言知识蒸馏的开放词汇对象检测

Xiuye Gu; Tsung-Yi Lin; Weicheng Kuo; Yin Cui
基于视觉和语言知识蒸馏的开放词汇对象检测
摘要

我们的目标是推进开放词汇对象检测技术的发展,该技术能够检测由任意文本输入描述的对象。主要挑战在于训练数据的可用性。进一步扩大现有对象检测数据集中类别的数量成本高昂。为了解决这一挑战,我们提出了ViLD(Vision and Language knowledge Distillation),一种通过视觉和语言知识蒸馏的训练方法。我们的方法将预训练的开放词汇图像分类模型(教师模型)的知识蒸馏到一个两阶段检测器(学生模型)中。具体而言,我们使用教师模型对类别文本和对象提议的图像区域进行编码。然后,我们训练一个学生检测器,使其检测框的区域嵌入与教师模型推断出的文本和图像嵌入对齐。我们在LVIS数据集上进行了基准测试,将所有罕见类别作为未在训练过程中见过的新类别。ViLD使用ResNet-50骨干网络获得了16.1的mask AP$r$,甚至超过了监督方法3.8个点。当使用更强的教师模型ALIGN进行训练时,ViLD达到了26.3的AP$_r$。该模型可以直接迁移到其他数据集而无需微调,在PASCAL VOC上实现了72.2的AP${50}$,在COCO上实现了36.6的AP,在Objects365上实现了11.8的AP。在COCO数据集上,ViLD在新类别AP方面比之前的最先进方法高出4.8,在总体AP方面高出11.4。代码和演示已开源至https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild。

基于视觉和语言知识蒸馏的开放词汇对象检测 | 最新论文 | HyperAI超神经