2 个月前
基于语言-图像的预训练
Li, Liunian Harold ; Zhang, Pengchuan ; Zhang, Haotian ; Yang, Jianwei ; Li, Chunyuan ; Zhong, Yiwu ; Wang, Lijuan ; Yuan, Lu ; Zhang, Lei ; Hwang, Jenq-Neng ; Chang, Kai-Wei ; Gao, Jianfeng

摘要
本文介绍了一种基于实例的语言-图像预训练(GLIP)模型,用于学习对象级别的、语言感知的、语义丰富的视觉表示。GLIP 在预训练过程中统一了目标检测和短语定位。这种统一带来了两个好处:1)它使 GLIP 能够从检测数据和定位数据中学习,以提升这两项任务的性能并引导出一个良好的定位模型;2)GLIP 可以通过自训练的方式生成定位框,从而利用大量的图像-文本对,使学到的表示更加语义丰富。在我们的实验中,我们在 2700 万条定位数据上预训练了 GLIP,其中包括 300 万个人工标注的图像-文本对和 2400 万个网络爬取的图像-文本对。所学的表示在各种对象级别的识别任务中表现出强大的零样本和少样本迁移能力。具体而言:1)当直接在 COCO 和 LVIS 上进行评估时(预训练阶段未见过 COCO 中的任何图像),GLIP 分别达到了 49.8 AP 和 26.9 AP 的性能,超过了多个监督基线模型;2)经过在 COCO 上微调后,GLIP 在验证集上的 AP 达到 60.8,在测试开发集上的 AP 达到 61.5,超越了之前的最先进水平;3)当迁移到 13 个下游目标检测任务时,仅需一次示例的 GLIP 模型即可与完全监督的动态头模型相媲美。代码已发布在 https://github.com/microsoft/GLIP。