Exploitation de données non étiquetées avec des modèles vision-langage pour la détection d'objets

La construction de cadres robustes et génériques pour la détection d'objets nécessite une mise à l'échelle vers des espaces de labels plus vastes et des jeux de données d'entraînement plus importants. Toutefois, l’acquisition d’étiquettes pour des milliers de catégories à grande échelle reste prohibitivement coûteuse. Nous proposons une nouvelle méthode qui exploite les riches sémantiques disponibles dans les récents modèles vision-langage afin de localiser et classer des objets dans des images non étiquetées, générant ainsi efficacement des pseudo-étiquettes pour la détection d'objets. En partant d’un mécanisme générique et indépendant de la classe pour la proposition de régions, nous utilisons des modèles vision-langage pour catégoriser chaque région d’une image selon n’importe quelle catégorie d’objet requise pour les tâches ultérieures. Nous démontrons la valeur des pseudo-étiquettes générées dans deux tâches spécifiques : la détection à vocabulaire ouvert, où un modèle doit généraliser à des catégories d’objets inconnues, et la détection d’objets semi-supervisée, où des images supplémentaires non étiquetées peuvent être utilisées pour améliorer le modèle. Nos évaluations empiriques montrent l’efficacité de ces pseudo-étiquettes dans les deux tâches, où nous surpassons les méthodes de référence et atteignons un nouveau record d’état de l’art pour la détection d’objets à vocabulaire ouvert. Notre code est disponible à l’adresse suivante : https://github.com/xiaofeng94/VL-PLM.