HyperAIHyperAI
il y a 2 mois

Grounding DINO : Allier DINO à la pré-formation ancrée pour la détection d'objets en ensemble ouvert

Shilong Liu; Zhaoyang Zeng; Tianhe Ren; Feng Li; Hao Zhang; Jie Yang; Qing Jiang; Chunyuan Li; Jianwei Yang; Hang Su; Jun Zhu; Lei Zhang
Grounding DINO : Allier DINO à la pré-formation ancrée pour la détection d'objets en ensemble ouvert
Résumé

Dans cet article, nous présentons un détecteur d'objets en ensemble ouvert, appelé Grounding DINO, en combinant le détecteur basé sur les Transformers DINO avec une préformation ancrée, capable de détecter des objets arbitraires grâce aux entrées humaines telles que des noms de catégories ou des expressions de référence. La solution clé pour la détection d'objets en ensemble ouvert réside dans l'introduction du langage à un détecteur en ensemble fermé afin de généraliser les concepts en ensemble ouvert. Pour fusionner efficacement les modalités linguistiques et visuelles, nous divisons conceptuellement un détecteur en ensemble fermé en trois phases et proposons une solution de fusion serrée, qui comprend un améliorateur de caractéristiques, une sélection de requêtes guidée par le langage et un décodeur inter-modalité pour la fusion inter-modalité. Bien que les travaux précédents évaluent principalement la détection d'objets en ensemble ouvert sur des catégories nouvelles, nous proposons également d'évaluer la compréhension des expressions de référence pour des objets spécifiés par leurs attributs. Grounding DINO obtient des résultats remarquables dans les trois configurations, y compris sur les benchmarks COCO, LVIS, ODinW et RefCOCO/+/g. Grounding DINO atteint un AP (Average Precision) de 52,5 sur le benchmark de transfert zéro-shot de détection COCO, c'est-à-dire sans aucune donnée d'entraînement provenant de COCO. Il établit un nouveau record sur le benchmark zéro-shot ODinW avec une moyenne d'AP de 26,1. Le code sera disponible à l'adresse \url{https://github.com/IDEA-Research/GroundingDINO}.