OV-DINO : Détection unifiée à vocabulaire ouvert avec fusion sélective sensible au langage

La détection de vocabulaire ouvert est une tâche complexe en raison de l'exigence de détecter des objets sur la base de noms de classes, y compris ceux qui n'ont pas été rencontrés lors de l'entraînement. Les méthodes existantes ont montré des capacités robustes de détection à zéro coup d'œil grâce à l'entraînement préalable et au pseudo-étiquetage sur des jeux de données à grande échelle et diversifiés. Cependant, ces approches rencontrent deux défis majeurs : (i) comment éliminer efficacement le bruit des données provenant du pseudo-étiquetage, et (ii) comment exploiter efficacement la capacité sensible au langage pour la fusion et l'alignement intermodaux au niveau régional. Pour relever ces défis, nous proposons une nouvelle méthode unifiée de détection de vocabulaire ouvert appelée OV-DINO, qui est entraînée préalablement sur des jeux de données à grande échelle et diversifiés avec une fusion sélective sensible au langage dans un cadre unifié. Plus précisément, nous introduisons un pipeline d'intégration de données unifié (UniDI) pour permettre une formation bout-en-bout et éliminer le bruit généré par les pseudo-étiquettes en unifiant différentes sources de données dans un format centré sur la détection. De plus, nous proposons un module de fusion sélective sensible au langage (LASF) pour améliorer l'alignement intermodaux grâce à un processus de sélection et de fusion des requêtes sensibles au langage. Nous évaluons les performances du OV-DINO proposé sur des benchmarks populaires de détection de vocabulaire ouvert, obtenant des résultats d'état de l'art avec un AP (Average Precision) de 50,6 % sur le benchmark COCO et 40,1 % sur le benchmark LVIS en mode zéro coup d'œil, ce qui témoigne d'une forte capacité généralisatrice. En outre, le OV-DINO affiné sur COCO atteint 58,4 % AP, surpassant nombre de méthodes existantes avec le même backbone. Le code source d'OV-DINO est disponible à l'adresse suivante : https://github.com/wanghao9610/OV-DINO.