2 个月前

SIA-OVD:用于弥合开放词汇检测中图像区域差距的形状不变适配器

Zishuo Wang; Wenhao Zhou; Jinglin Xu; Yuxin Peng
SIA-OVD:用于弥合开放词汇检测中图像区域差距的形状不变适配器
摘要

开放词汇检测(OVD)旨在在没有实例级注释的情况下检测新对象,以实现成本更低的开放世界目标检测。现有的OVD方法主要依赖于视觉-语言预训练模型(VLM)如CLIP的强大开放词汇图像-文本对齐能力。然而,CLIP是在图像-文本对上进行训练的,缺乏对图像内部局部区域的感知能力,导致了图像和区域表示之间的差距。直接使用CLIP进行OVD会导致区域分类不准确。我们发现,这种图像-区域差距主要是由于在感兴趣区域(RoI)提取过程中区域特征图发生变形所致。为了缓解OVD中的不准确区域分类问题,我们提出了一种新的形状不变适配器,命名为SIA-OVD,以弥合OVD任务中的图像-区域差距。SIA-OVD学习了一组适用于不同形状区域的特征适配器,并设计了一种新的适配器分配机制来为每个区域选择最优的适配器。经过适应的区域表示可以更好地与CLIP学习到的文本表示对齐。广泛的实验表明,SIA-OVD通过解决由形状变形引起的图像和区域之间的差距,有效提高了区域分类的准确性。SIA-OVD在COCO-OVD基准测试中相对于代表性方法取得了显著改进。代码可在https://github.com/PKU-ICST-MIPL/SIA-OVD_ACMMM2024 获取。

SIA-OVD:用于弥合开放词汇检测中图像区域差距的形状不变适配器 | 最新论文 | HyperAI超神经