2 个月前

一个开放且全面的统一对象定位与检测管道

Zhao, Xiangyu ; Chen, Yicheng ; Xu, Shilin ; Li, Xiangtai ; Wang, Xinjiang ; Li, Yining ; Huang, Haian
一个开放且全面的统一对象定位与检测管道
摘要

Grounding-DINO 是一种最先进的开放集检测模型,能够应对包括开放词汇检测(Open-Vocabulary Detection, OVD)、短语定位(Phrase Grounding, PG)和指代表达理解(Referring Expression Comprehension, REC)在内的多种视觉任务。其有效性使其在各种下游应用中被广泛采用为主流架构。然而,尽管该模型具有重要意义,但由于缺乏训练代码,原始的 Grounding-DINO 模型未能提供全面的公开技术细节。为了弥补这一不足,我们推出了 MM-Grounding-DINO,这是一个开源、全面且用户友好的基线模型,基于 MMDetection 工具箱构建。该模型采用了丰富的视觉数据集进行预训练,并使用多种检测和定位数据集进行微调。我们对每个报告的结果进行了详尽的分析,并提供了详细的复现设置。在提到的多个基准测试中的广泛实验表明,我们的 MM-Grounding-DINO-Tiny 模型优于 Grounding-DINO-Tiny 基线模型。我们将所有模型发布给研究社区。代码和训练好的模型已发布在 https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino。

一个开放且全面的统一对象定位与检测管道 | 最新论文 | HyperAI超神经