Une Pipeline Ouverte et Complète pour l'Ancrage et la Détection Unifiés d'Objets

Grounding-DINO est un modèle de détection d'ensemble ouvert (open-set) de pointe qui aborde plusieurs tâches visuelles, notamment la détection de vocabulaire ouvert (Open-Vocabulary Detection - OVD), l'ancrage de phrases (Phrase Grounding - PG) et la compréhension des expressions référentielles (Referring Expression Comprehension - REC). Son efficacité a conduit à son adoption généralisée en tant qu'architecture principale pour diverses applications en aval. Cependant, malgré son importance, le modèle Grounding-DINO original manque de détails techniques complets et accessibles au public en raison de l'absence de son code d'entraînement. Pour combler cette lacune, nous présentons MM-Grounding-DINO, une ligne de base open-source, complète et conviviale, construite avec la boîte à outils MMDetection. Ce modèle utilise de nombreux jeux de données visuels pour l'apprentissage préalable et divers jeux de données de détection et d'ancre pour l'affinage. Nous fournissons une analyse exhaustive de chaque résultat rapporté ainsi que des paramètres détaillés pour sa reproduction. Les expériences approfondies menées sur les bancs d'essai mentionnés montrent que notre MM-Grounding-DINO-Tiny surpasse la ligne de base Grounding-DINO-Tiny. Nous mettons tous nos modèles à disposition de la communauté scientifique. Le code source et les modèles entraînés sont disponibles à l'adresse suivante : https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino.