11 天前

对比特征掩码开放词汇视觉Transformer

Dahun Kim, Anelia Angelova, Weicheng Kuo
对比特征掩码开放词汇视觉Transformer
摘要

我们提出了一种对比特征掩码视觉Transformer(Contrastive Feature Masking Vision Transformer, CFM-ViT)——一种图像-文本预训练方法,能够实现图像级与区域级表征的同步学习,从而支持开放词汇目标检测(Open-Vocabulary Detection, OVD)。该方法将掩码自编码器(Masked Autoencoder, MAE)的目标函数与对比学习目标相结合,以提升模型在定位任务中的表征能力。与标准MAE不同,CFM-ViT在图像-文本联合嵌入空间中进行重建,而非传统MAE所采用的像素空间。这一设计使模型能够更有效地学习区域级别的语义信息。此外,我们引入了位置嵌入丢弃(Positional Embedding Dropout, PED)机制,通过在预训练阶段随机丢弃位置嵌入,缓解图像-文本预训练与检测微调阶段之间的尺度差异问题。PED不仅显著提升了检测性能,还使得可冻结的ViT主干网络作为区域分类器使用成为可能,从而在检测微调过程中有效防止开放词汇知识的遗忘。在LVIS开放词汇检测基准测试中,CFM-ViT取得了33.9 AP$r$的领先性能,较现有最佳方法提升7.6个百分点,并展现出更优的零样本检测迁移能力。此外,CFM-ViT在图像级表征方面也表现出色,在12项零样本图像-文本检索基准中的8项上超越了当前最优水平,充分验证了其强大的通用表征能力。

对比特征掩码开放词汇视觉Transformer | 最新论文 | HyperAI超神经