
摘要
目前,大多数视觉任务的主流方法是基于在ImageNet上通过监督学习预训练获得的视觉表征。近年来,已有研究探索了无监督预训练方法,以利用海量未标注图像实现规模扩展。与此不同,我们的目标是从更少的图像中学习高质量的视觉表征。为此,我们重新审视了监督预训练方法,并致力于寻找比基于分类的预训练更具数据效率的替代方案。为此,我们提出了VirTex——一种利用语义密集型图像描述(captions)进行预训练的视觉表征学习方法。我们在COCO Captions数据集上从零开始训练卷积网络,并将所学表征迁移至下游识别任务,包括图像分类、目标检测和实例分割。在所有任务中,VirTex所生成的特征表现均达到或超越了在ImageNet上通过监督或无监督方式学习的表征,而其训练所用图像数量最多仅为后者的十分之一。