Apprentissage peu supervisé multimodal avec des modèles linguistiques figés

Lorsqu’elles sont entraînées à une échelle suffisante, les modèles linguistiques auto-régressifs présentent la capacité remarquable d’apprendre une nouvelle tâche linguistique après avoir été sollicitées par seulement quelques exemples. Dans cet article, nous proposons une approche simple mais efficace pour transférer cette capacité d’apprentissage en peu d’exemples à un cadre multimodal (vision et langage). En utilisant des données d’images et de légendes alignées, nous entraînons un encodeur visuel pour représenter chaque image sous la forme d’une séquence d’embeddings continus, de telle sorte qu’un modèle linguistique pré-entraîné et figé, lorsqu’il est sollicité avec cette séquence en préfixe, génère la légende appropriée. Le système résultant constitue un apprenant multimodal en peu d’exemples, doté d’une capacité surprenante à apprendre diverses nouvelles tâches lorsqu’il est conditionné par des exemples représentés sous la forme d’une séquence d’embeddings visuels et textuels alternés. Nous démontrons qu’il peut rapidement apprendre des mots pour de nouveaux objets et de nouvelles catégories visuelles, résoudre des questions visuelles avec seulement quelques exemples, et exploiter des connaissances externes, en évaluant un seul modèle sur une variété de benchmarks établis et nouveaux.