Détection d'objets à vocabulaire ouvert avec minage de propositions et égalisation de prédiction

La détection d’objets à vocabulaire ouvert (OVD) vise à étendre la taille du vocabulaire afin de détecter des objets appartenant à des catégories nouvelles, en dehors du vocabulaire d’entraînement. Les travaux récents s’appuient sur les connaissances riches présentes dans les modèles vision-langage pré-entraînés. Toutefois, les méthodes existantes sont peu efficaces en matière d’alignement vision-langage au niveau des propositions. Par ailleurs, ces modèles souffrent généralement d’un biais de confiance envers les catégories de base et obtiennent de mauvaises performances sur les catégories nouvelles. Pour surmonter ces défis, nous proposons MEDet, un cadre novateur et efficace pour l’OVD basé sur l’extraction de propositions et l’égalisation des prédictions. Premièrement, nous concevons une méthode d’extraction en ligne de propositions afin d’affiner les connaissances vision-sémantiques héritées, de manière grossière à fine, permettant ainsi un alignement des caractéristiques orienté vers la détection au niveau des propositions. Deuxièmement, inspirés par la théorie de l’inférence causale, nous introduisons un ajustement par portes arrière par classe afin de renforcer les prédictions sur les catégories nouvelles et d’améliorer ainsi la performance globale de l’OVD. Des expériences étendues sur les benchmarks COCO et LVIS confirment l’avantage de MEDet par rapport aux approches concurrentes en ce qui concerne la détection d’objets appartenant à des catégories nouvelles, par exemple 32,6 % de AP50 sur COCO et 22,4 % de mask mAP sur LVIS.