17 天前

DetCLIPv2:通过词-区域对齐实现可扩展的开放词汇目标检测预训练

Lewei Yao, Jianhua Han, Xiaodan Liang, Dan Xu, Wei Zhang, Zhenguo Li, Hang Xu
DetCLIPv2:通过词-区域对齐实现可扩展的开放词汇目标检测预训练
摘要

本文提出了DetCLIPv2,一种高效且可扩展的训练框架,通过利用大规模图像-文本对实现开放词汇目标检测(Open-Vocabulary Detection, OVD)。与以往依赖预训练视觉-语言模型(如CLIP)或通过伪标签机制利用图像-文本对的OVD框架不同,DetCLIPv2能够以端到端的方式,直接从海量图像-文本对中学习细粒度的词语-区域对齐关系。为实现这一目标,本文采用区域提议与文本词语之间的最大词-区域相似性,作为对比学习目标的引导信号。为了在学习广泛语义概念的同时赋予模型定位能力,DetCLIPv2在统一的数据范式下,联合使用检测、图像-文本定位以及图像-文本对数据进行混合监督训练。通过采用交替训练策略并结合低分辨率输入处理图像-文本对,DetCLIPv2能够高效且有效地利用图像-文本对数据:在训练时间相近的情况下,其使用的图像-文本对数量是DetCLIP的13倍,显著提升了模型性能。在预训练阶段使用1300万张图像-文本对后,DetCLIPv2展现出卓越的开放词汇检测能力——以Swin-T为骨干网络的DetCLIPv2在LVIS基准上实现了40.4%的零样本AP,相较于先前方法GLIP/GLIPv2/DetCLIP分别提升了14.4%、11.4%和4.5%的AP,甚至大幅超越其全监督对应模型。