11 天前

RegionCLIP:基于区域的语言-图像预训练

Yiwu Zhong, Jianwei Yang, Pengchuan Zhang, Chunyuan Li, Noel Codella, Liunian Harold Li, Luowei Zhou, Xiyang Dai, Lu Yuan, Yin Li, Jianfeng Gao
RegionCLIP:基于区域的语言-图像预训练
摘要

对比语言-图像预训练(Contrastive Language-Image Pretraining, CLIP)通过图像-文本对在零样本(zero-shot)和迁移学习(transfer learning)场景下均取得了令人瞩目的图像分类性能。然而,我们发现直接将此类模型应用于目标检测中的图像区域识别时,性能表现较差,其根源在于领域偏移(domain shift):CLIP在训练过程中旨在将整张图像与文本描述进行匹配,而未能捕捉图像区域与文本片段之间的细粒度对齐关系。为缓解这一问题,我们提出一种新方法——RegionCLIP,该方法显著扩展了CLIP的能力,使其能够学习区域级别的视觉表征,从而实现图像区域与文本概念之间的细粒度对齐。我们的方法首先利用预训练的CLIP模型将图像区域与模板化文本描述进行匹配,随后在特征空间中对这些区域-文本配对进行自监督预训练。当将预训练模型迁移到开放词汇目标检测任务时,RegionCLIP在COCO和LVIS数据集上分别以3.8 AP50和2.2 AP的绝对提升显著超越现有最先进方法。此外,所学习的区域表征支持零样本目标检测推理,在COCO和LVIS数据集上均展现出优异的性能。相关代码已开源,地址为:https://github.com/microsoft/RegionCLIP。

RegionCLIP:基于区域的语言-图像预训练 | 最新论文 | HyperAI超神经