HyperAIHyperAI

Command Palette

Search for a command to run...

Prismer : Un modèle vision-langage à experts multi-tâches

Shikun Liu Linxi Fan Edward Johns Zhiding Yu Chaowei Xiao Anima Anandkumar

Résumé

Les modèles vision-langage récents ont démontré des capacités impressionnantes de génération multimodale. Toutefois, ils nécessitent généralement l'entraînement de modèles de grande taille sur de vastes jeux de données. En tant qu'alternative plus évolutive, nous introduisons Prismer, un modèle vision-langage efficace en termes de données et de paramètres, qui exploite un ensemble d'experts spécialisés dans des tâches spécifiques. Prismer n'exige l'entraînement que d'un petit nombre de composants, la majorité des poids du réseau étant hérités de plusieurs experts pré-entraînés facilement disponibles et conservés gelés pendant l'entraînement. En tirant parti d'experts provenant de domaines variés, nous montrons que Prismer peut efficacement agréger ces connaissances spécialisées et les adapter à diverses tâches de raisonnement vision-langage. Dans nos expériences, nous démontrons que Prismer atteint des performances en apprentissage fine-tuné et en apprentissage peu supervisé compétitives par rapport aux états de l'art actuels, tout en nécessitant jusqu'à deux ordres de grandeur moins de données d'entraînement. Le code est disponible à l'adresse suivante : https://github.com/NVlabs/prismer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp