il y a 2 mois

Correspondance Localisée de la Vision et du Langage pour la Détection d'Objets à Vocabulaire Ouvert

Maria A. Bravo; Sudhanshu Mittal; Thomas Brox

Résumé

Dans cette étude, nous proposons une méthode de détection d'objets à vocabulaire ouvert qui, en se basant sur des paires image-legendes, apprend à détecter de nouvelles classes d'objets en plus d'un ensemble de classes connues. Il s'agit d'une approche de formation en deux étapes : la première utilise une technique de correspondance image-legendes guidée par la localisation pour apprendre les étiquettes de classe des objets nouveaux et connus de manière faiblement supervisée, tandis que la seconde spécialise le modèle pour la tâche de détection d'objets en utilisant les annotations des classes connues. Nous montrons qu'un modèle linguistique simple s'adapte mieux qu'un grand modèle linguistique contextuel pour la détection d'objets nouveaux. De plus, nous introduisons une technique de régularisation de cohérence pour exploiter davantage l'information des paires image-legendes. Notre méthode offre des performances comparables aux approches existantes de détection à vocabulaire ouvert tout en étant efficace en termes de données. Le code source est disponible à l'adresse https://github.com/lmb-freiburg/locov .