Ré-évaluation basée sur la similarité image-langage pour la détection d'objets en peu d'exemples

La détection d'objets à peu de exemples, qui vise à détecter des objets nouveaux à partir de très peu d'étiquettes, constitue un défi émergent au sein de la communauté. Des études récentes montrent qu’adapter un modèle pré-entraîné ou une fonction de perte modifiée peut améliorer les performances. Dans ce travail, nous explorons l’utilisation du pouvoir du modèle pré-entraînement image-langage contrastif (CLIP) ainsi que de la perte de classification à négatifs durs dans un contexte à faible quantité de données. Plus précisément, nous proposons RISF (Re-scoring using Image-language Similarity for Few-shot object detection), une extension de Faster R-CNN intégrant un module de calibration basé sur CLIP (CM-CLIP) et une perte de réévaluation des négatifs de fond (BNRL). Le premier module adapte CLIP, qui réalise une classification zéro-shot, afin de réévaluer les scores de classification d’un détecteur à l’aide de similarités entre images et classes. Le second est une fonction de perte modifiée qui pénalise à la fois les faux fonds et les catégories ambiguës sur un ensemble de données de détection d’objets à peu de exemples généralisés. Des expérimentations étendues sur MS-COCO et PASCAL VOC démontrent que RISF surpasse significativement les approches les plus avancées de l’état de l’art. Le code source sera rendu disponible.