CORA : Adaptation de CLIP pour la détection à vocabulaire ouvert avec incitation régionale et pré-mappage d'ancres

La détection de vocabulaire ouvert (OVD) est une tâche de détection d'objets visant à identifier des objets appartenant à des catégories inédites, au-delà des catégories de base sur lesquelles le détecteur a été formé. Les méthodes récentes en OVD s'appuient sur des modèles pré-entraînés à grande échelle pour la vision et le langage, tels que CLIP, afin de reconnaître ces objets inédits. Nous identifions deux obstacles majeurs qui doivent être surmontés lors de l'intégration de ces modèles dans l'entraînement du détecteur : (1) le déséquilibre de distribution qui se produit lorsqu'un modèle VL formé sur des images entières est appliqué à des tâches de reconnaissance régionale ; (2) la difficulté à localiser les objets appartenant à des classes non vues.Pour surmonter ces obstacles, nous proposons CORA, un cadre inspiré par DETR qui adapte CLIP pour la détection de vocabulaire ouvert par l'intermédiaire du prompting régional et du pré-appariement d'ancre. Le prompting régional atténue le fossé entre la distribution globale et régionale en stimulant les caractéristiques régionales du classificateur régional basé sur CLIP. Le pré-appariement d'ancre aide à l'apprentissage d'une localisation d'objets généralisable grâce à un mécanisme d'appariement sensible aux classes.Nous évaluons CORA sur le banc d'essai OVD COCO, où il atteint un AP50 de 41,7 % pour les classes inédites, surpassant ainsi l'état de l'art précédent de 2,4 points AP50 sans recourir à des données d'entraînement supplémentaires. Lorsque des données d'entraînement supplémentaires sont disponibles, nous entraînons CORA$^+$ sur les annotations de vérité terrain des catégories de base et sur des étiquettes de boîtes englobantes pseudo-calculées par CORA. CORA$^+$ atteint un AP50 de 43,1 % sur le banc d'essai OVD COCO et un APr boîte de 28,1 % sur le banc d'essai OVD LVIS.