Détection d'objets à vocabulaire ouvert augmentée par la récupération

La détection d'objets à vocabulaire ouvert (OVD) a été étudiée à l’aide de modèles vision-langage (VLM) afin de détecter des objets nouveaux, en dehors des catégories prédéfinies lors de l’entraînement. Les approches antérieures améliorent la capacité de généralisation en élargissant le savoir du détecteur grâce à des pseudo-étiquettes « positives » enrichies de noms de classes supplémentaires, par exemple : sock (chaussette), iPod, alligator (alligator). Pour étendre ces méthodes sur deux aspects, nous proposons RALF (Retrieval-Augmented Losses and visual Features). Notre méthode récupère des classes « négatives » associées et enrichit les fonctions de perte. Par ailleurs, les caractéristiques visuelles sont enrichies par des « concepts verbalisés » dérivés des classes, tels que : porté sur les pieds, lecteur musical portable, dents pointues. Plus précisément, RALF se compose de deux modules : Retrieval Augmented Losses (RAL) et Retrieval-Augmented visual Features (RAF). RAL intègre deux fonctions de perte reflétant la similarité sémantique avec les vocabulaires négatifs. En outre, RAF enrichit les caractéristiques visuelles à l’aide de concepts verbalisés générés par un modèle de langage à grande échelle (LLM). Nos expérimentations démontrent l’efficacité de RALF sur les jeux de données benchmarks COCO et LVIS. Nous obtenons une amélioration allant jusqu’à 3,4 points de box AP${50}^{\text{N}}$ sur les catégories nouvelles du dataset COCO, ainsi qu’un gain de 3,6 points de mask AP${\text{r}}$ sur le dataset LVIS. Le code source est disponible à l’adresse suivante : https://github.com/mlvlab/RALF.