OV-DQUO : DETR à Vocabulaire Ouvert avec Formation de Requêtes Textuelles Débruitées et Supervision d'Objets Inconnus dans un Monde Ouvert

La détection à vocabulaire ouvert vise à détecter des objets appartenant à de nouvelles catégories au-delà des catégories de base sur lesquelles le détecteur a été formé. Cependant, les détecteurs à vocabulaire ouvert existants, formés sur des données de catégories de base, ont tendance à attribuer une plus grande confiance aux catégories formées et à confondre les nouvelles catégories avec l'arrière-plan. Pour résoudre ce problème, nous proposons OV-DQUO, un DETR (DEtection TRansformer) à vocabulaire ouvert avec une stratégie d'entraînement par requêtes textuelles débruitées (\textbf{D}enoising text \textbf{Q}uery training) et une supervision d'objets inconnus dans un monde ouvert (\textbf{O}pen-\textbf{V}ocabulary DETR with \textbf{D}enoising text \textbf{Q}uery training and open-world \textbf{U}nknown \textbf{O}bjects supervision). Plus précisément, nous introduisons une méthode de correspondance générique. Cette méthode permet au détecteur d'apprendre à partir de paires d'objets inconnus reconnus par le détecteur dans un monde ouvert et de plongements textuels dotés de sémantiques générales, atténuant ainsi le biais de confiance entre les catégories de base et les nouvelles catégories. De plus, nous proposons une stratégie d'entraînement par requêtes textuelles débruitées. Elle synthétise des paires de boîtes-reqêtes avant-plan et arrière-plan à partir d'objets inconnus dans un monde ouvert pour former le détecteur par apprentissage contrastif, améliorant sa capacité à distinguer les nouveaux objets de l'arrière-plan. Nous avons mené des expériences approfondies sur les benchmarks difficiles OV-COCO et OV-LVIS, obtenant de nouveaux résultats d'état de l'art avec 45,6 AP50 et 39,3 mAP respectivement pour les nouvelles catégories, sans nécessiter des données d'entraînement supplémentaires. Les modèles et le code sont disponibles sur \url{https://github.com/xiaomoguhz/OV-DQUO}.