HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage peu supervisé multimodal avec des modèles linguistiques figés

Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill

Résumé

Lorsqu’elles sont entraînées à une échelle suffisante, les modèles linguistiques auto-régressifs présentent la capacité remarquable d’apprendre une nouvelle tâche linguistique après avoir été sollicitées par seulement quelques exemples. Dans cet article, nous proposons une approche simple mais efficace pour transférer cette capacité d’apprentissage en peu d’exemples à un cadre multimodal (vision et langage). En utilisant des données d’images et de légendes alignées, nous entraînons un encodeur visuel pour représenter chaque image sous la forme d’une séquence d’embeddings continus, de telle sorte qu’un modèle linguistique pré-entraîné et figé, lorsqu’il est sollicité avec cette séquence en préfixe, génère la légende appropriée. Le système résultant constitue un apprenant multimodal en peu d’exemples, doté d’une capacité surprenante à apprendre diverses nouvelles tâches lorsqu’il est conditionné par des exemples représentés sous la forme d’une séquence d’embeddings visuels et textuels alternés. Nous démontrons qu’il peut rapidement apprendre des mots pour de nouveaux objets et de nouvelles catégories visuelles, résoudre des questions visuelles avec seulement quelques exemples, et exploiter des connaissances externes, en évaluant un seul modèle sur une variété de benchmarks établis et nouveaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp