HyperAIHyperAI
il y a 11 jours

Exploitation de données non étiquetées avec des modèles vision-langage pour la détection d'objets

Shiyu Zhao, Zhixing Zhang, Samuel Schulter, Long Zhao, Vijay Kumar B.G, Anastasis Stathopoulos, Manmohan Chandraker, Dimitris Metaxas
Exploitation de données non étiquetées avec des modèles vision-langage pour la détection d'objets
Résumé

La construction de cadres robustes et génériques pour la détection d'objets nécessite une mise à l'échelle vers des espaces de labels plus vastes et des jeux de données d'entraînement plus importants. Toutefois, l’acquisition d’étiquettes pour des milliers de catégories à grande échelle reste prohibitivement coûteuse. Nous proposons une nouvelle méthode qui exploite les riches sémantiques disponibles dans les récents modèles vision-langage afin de localiser et classer des objets dans des images non étiquetées, générant ainsi efficacement des pseudo-étiquettes pour la détection d'objets. En partant d’un mécanisme générique et indépendant de la classe pour la proposition de régions, nous utilisons des modèles vision-langage pour catégoriser chaque région d’une image selon n’importe quelle catégorie d’objet requise pour les tâches ultérieures. Nous démontrons la valeur des pseudo-étiquettes générées dans deux tâches spécifiques : la détection à vocabulaire ouvert, où un modèle doit généraliser à des catégories d’objets inconnues, et la détection d’objets semi-supervisée, où des images supplémentaires non étiquetées peuvent être utilisées pour améliorer le modèle. Nos évaluations empiriques montrent l’efficacité de ces pseudo-étiquettes dans les deux tâches, où nous surpassons les méthodes de référence et atteignons un nouveau record d’état de l’art pour la détection d’objets à vocabulaire ouvert. Notre code est disponible à l’adresse suivante : https://github.com/xiaofeng94/VL-PLM.

Exploitation de données non étiquetées avec des modèles vision-langage pour la détection d'objets | Articles de recherche récents | HyperAI