LP-OVOD : Détection d'objets à vocabulaire ouvert par sondage linéaire

Ce papier aborde le problème difficile de la détection d'objets à vocabulaire ouvert (OVOD), dans lequel un détecteur d'objets doit identifier à la fois les classes observées et les classes inconnues dans les images de test, sans disposer d'exemples étiquetés des classes inconnues durant l'entraînement. Une approche classique pour l'OVOD consiste à utiliser des embeddings conjoints texte-image fournis par CLIP afin d’attribuer chaque proposition de boîte à sa étiquette texte la plus proche. Toutefois, cette méthode présente un problème critique : de nombreuses propositions de mauvaise qualité, telles que des boîtes sur-ou sous-couvrant les objets, obtiennent la même note de similarité que des boîtes de haute qualité, car CLIP n’a pas été entraîné sur des informations précises concernant la localisation des objets. Pour résoudre ce problème, nous proposons une nouvelle méthode, LP-OVOD, qui élimine les propositions de faible qualité en entraînant un classificateur linéaire sigmoïde à partir d’étiquettes pseudo-étiquetées extraites des meilleures propositions régionales associées au texte nouveau. Les résultats expérimentaux sur COCO confirment la supériorité de notre approche par rapport aux méthodes de pointe, atteignant un score de $\textbf{40.5}$ en $\text{AP}_{novel}$ en utilisant ResNet50 comme architecture principale, sans recourir à des jeux de données externes ni connaître les classes nouvelles pendant l'entraînement. Le code sera rendu disponible à l'adresse suivante : https://github.com/VinAIResearch/LP-OVOD.