« Voici mon licorne, Fluffy » : Personnalisation des représentations visuo-linguistiques congelées

Les grands modèles de Vision et Langage préentraînés sur des données à l'échelle du Web fournissent des représentations qui sont inestimables pour de nombreux problèmes de V&L. Cependant, il n'est pas clair comment ils peuvent être utilisés pour raisonner sur des concepts visuels spécifiques à l'utilisateur dans un langage non structuré. Ce problème se pose dans plusieurs domaines, allant de la recherche d'images personnalisée à l'interaction personnalisée avec les appareils intelligents. Nous présentons une nouvelle configuration d'apprentissage appelée Vision et Langage Personnalisé (PerVL) avec deux nouveaux ensembles de données de référence pour la recherche et le découpage de concepts « personnalisés » « dans le monde réel ». Dans PerVL, on doit apprendre des concepts personnalisés (1) indépendamment de la tâche en aval, (2) permettre à un modèle préentraîné de raisonner sur eux avec un langage libre, et (3) sans nécessiter d'exemples négatifs personnalisés. Nous proposons une architecture pour résoudre PerVL qui consiste à étendre le vocabulaire d'entrée d'un modèle préentraîné avec de nouvelles plongées lexicales pour les nouveaux concepts personnalisés. Le modèle peut ensuite raisonner sur ces concepts simplement en les utilisant dans une phrase. Nous démontrons que notre approche apprend des concepts visuels personnalisés à partir de quelques exemples et peut les appliquer efficacement dans la recherche d'images et la segmentation sémantique en utilisant des requêtes textuelles riches.