Grounding DINO 1.5 : Améliorer la « Frontière » de la Détection d'Objets en Ensemble Ouvert

Ce document présente Grounding DINO 1.5, une suite de modèles avancés d détection d'objets en ensemble ouvert développée par IDEA Research, visant à repousser les limites de la détection d'objets en ensemble ouvert. Cette suite comprend deux modèles : Grounding DINO 1.5 Pro, un modèle haute performance conçu pour une meilleure capacité de généralisation dans une large gamme de scénarios, et Grounding DINO 1.5 Edge, un modèle efficace optimisé pour répondre aux exigences de vitesse élevée dans de nombreuses applications nécessitant un déploiement au niveau du périphérique.Le modèle Grounding DINO 1.5 Pro améliore son prédécesseur en élargissant l'architecture du modèle, en intégrant une base visuelle renforcée et en étendant le jeu de données d'entraînement à plus de 20 millions d'images avec des annotations d'ancre (grounding), ce qui lui permet d'atteindre une compréhension sémantique plus riche. Le modèle Grounding DINO 1.5 Edge, bien que conçu pour être plus efficace avec des échelles de fonctionnalités réduites, maintient des capacités robustes de détection grâce à son entraînement sur le même jeu de données complet.Les résultats empiriques démontrent l'efficacité de Grounding DINO 1.5 : le modèle Grounding DINO 1.5 Pro atteint un AP (Average Precision) de 54,3 sur le banc d'essai COCO de détection d'objets et un AP de 55,7 sur le banc d'essai LVIS-minival pour le transfert zéro-shot, établissant ainsi de nouveaux records dans la détection d'objets en ensemble ouvert. De plus, lorsque le modèle Grounding DINO 1.5 Edge est optimisé avec TensorRT, il atteint une vitesse de 75,2 FPS tout en obtenant une performance zéro-shot de 36,2 AP sur le banc d'essai LVIS-minival, ce qui le rend plus adapté aux scénarios de calcul au niveau du périphérique.Des exemples et des démonstrations de modèles avec API seront disponibles à l'adresse suivante : https://github.com/IDEA-Research/Grounding-DINO-1.5-API