2 个月前
类别无关的目标检测与多模态变压器
Maaz, Muhammad ; Rasheed, Hanoona ; Khan, Salman ; Khan, Fahad Shahbaz ; Anwer, Rao Muhammad ; Yang, Ming-Hsuan

摘要
什么是物体?这一直是计算机视觉领域的一个长期问题。为了评估物体性,已经开发了多种无需学习和基于学习的方法。然而,这些方法通常在新领域和新物体上扩展性不佳。本文中,我们主张现有方法缺乏由人类可理解的语义自上而下的监督信号。首次在文献中,我们证明了使用对齐的图像-文本对训练的多模态视觉变压器(MViT)可以有效弥合这一差距。我们在不同领域和新物体上的广泛实验表明,MViT 在图像中定位通用物体方面表现出最先进的性能。鉴于现有的 MViT 通常不包含多尺度特征处理且通常需要更长的训练时间,我们开发了一种高效的 MViT 架构,该架构采用了多尺度可变形注意力机制和后期视觉-语言融合技术。我们展示了 MViT 提案在包括开放世界物体检测、显著性和伪装物体检测、有监督和无监督检测任务在内的多种应用中的重要性。此外,MViT 可以根据特定的语言查询自适应地生成提案,从而提供增强的交互能力。代码:\url{https://git.io/J1HPY}。