2 个月前
描述性目标检测:用灵活表达解放目标检测
Xie, Chi ; Zhang, Zhao ; Wu, Yixuan ; Zhu, Feng ; Zhao, Rui ; Liang, Shuang

摘要
基于语言信息检测物体是一项热门任务,包括开放词汇物体检测(Open-Vocabulary Object Detection, OVD)和指代表达理解(Referring Expression Comprehension, REC)。在本文中,我们通过扩展OVD中的类别名称为灵活的语言表达,并克服REC仅能定位预存物体的限制,将其推进到一个更为实用的场景——描述物体检测(Described Object Detection, DOD)。我们通过构建一个描述检测数据集(Description Detection Dataset, $D^3$)来为DOD研究奠定基础。该数据集包含灵活多样的语言表达,无论是简短的类别名称还是长篇描述,并且对所有图像中的所有描述物体进行了无遗漏标注。通过对现有最先进方法在$D^3$上的评估,我们发现了一些在当前REC、OVD及双功能方法中表现不佳的问题实例。REC方法在置信度评分、拒绝负例以及多目标场景方面存在困难,而OVD方法则难以应对长而复杂的描述。最近的双功能方法由于其针对REC和OVD任务分别进行训练和推理策略的设计,在DOD上也未能取得良好的效果。基于上述发现,我们提出了一种基线方法,通过重构训练数据并引入二分类子任务,显著提升了REC方法的性能,超越了现有的方法。数据和代码可在https://github.com/shikras/d-cube 获取,相关工作也在https://github.com/Charles-Xie/awesome-described-object-detection 中进行跟踪。