11 天前

基于区域中心的图像-语言预训练用于开放词汇检测

Dahun Kim, Anelia Angelova, Weicheng Kuo
基于区域中心的图像-语言预训练用于开放词汇检测
摘要

我们提出了一种基于区域中心化图像-语言预训练的新颖开放词汇检测方法,旨在弥合图像级预训练与开放词汇目标检测之间的差距。在预训练阶段,我们在分类主干网络之上引入检测器架构,使检测头能够从大规模图像-文本对中学习,从而更好地满足目标检测任务对区域级识别的需求。该方法仅采用标准的对比损失(contrastive loss),无需伪标签(pseudo-labeling),是对对比学习方法的一种简洁而有效的拓展,能够有效学习涌现的物体语义线索。此外,我们提出了一种基于窗口注意力机制的偏移窗口学习(shifted-window learning)策略,使主干网络的特征表示更具鲁棒性、平移不变性,并减少窗口模式带来的偏差。在主流的LVIS开放词汇检测基准上,我们的方法在使用通用ViT-L主干网络和公开LAION数据集时,取得了37.6的mask APr新纪录;在使用DataComp-1B数据集时,进一步提升至40.5 mask APr,相较现有最佳方法在系统级性能上显著提升+3.7 mask APr。在COCO基准上,我们的方法在无需伪标签或弱监督的情况下,实现了39.6的新型类别AP(novel AP),表现极为出色。此外,我们在迁移检测设置下对方法进行了评估,结果表明其在多个任务上均显著优于基线模型。可视化分析显示,与基线方法相比,我们的预训练策略能够有效激发物体的空间定位能力,展现出更强的物体局部性(object locality)特征。

基于区域中心的图像-语言预训练用于开放词汇检测 | 最新论文 | HyperAI超神经