2 个月前

Grounding DINO 1.5:推进开放集物体检测的“边缘”

Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang
Grounding DINO 1.5:推进开放集物体检测的“边缘”
摘要

本文介绍了由IDEA研究院开发的Grounding DINO 1.5,这是一套先进的开放集物体检测模型,旨在推动开放集物体检测领域的“前沿”发展。该套件包括两个模型:Grounding DINO 1.5 Pro,一个高性能模型,设计用于在广泛场景中具备更强的泛化能力;以及Grounding DINO 1.5 Edge,一个高效模型,针对许多需要边缘部署的应用进行了优化以实现更快的速度。Grounding DINO 1.5 Pro模型通过扩展模型架构、集成增强的视觉主干网络,并将训练数据集扩大到超过2000万张带有接地注释的图像,从而实现了更丰富的语义理解。尽管Grounding DINO 1.5 Edge模型为了提高效率而减少了特征尺度,但通过在同一全面的数据集上进行训练,仍保持了强大的检测能力。实证结果表明了Grounding DINO 1.5的有效性,其中Grounding DINO 1.5 Pro模型在COCO检测基准上达到了54.3 AP,在LVIS-minival零样本迁移基准上达到了55.7 AP,为开放集物体检测设立了新的记录。此外,当使用TensorRT进行优化时,Grounding DINO 1.5 Edge模型在LVIS-minival基准上的零样本性能达到36.2 AP的同时实现了75.2 FPS的速度,使其更适合边缘计算场景。该模型的示例和演示(含API)将在以下网址发布:https://github.com/IDEA-Research/Grounding-DINO-1.5-API