HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG : Apprentissage vision-langage efficace et performant grâce aux connexions sautées inter-modales

Résumé

Les grands modèles fondamentaux préentraînés constituent désormais un paradigme émergent pour le développement de systèmes d’intelligence artificielle (IA), capables d’être rapidement adaptés à une large gamme de tâches ultérieures. Ce papier présente mPLUG, un nouveau modèle fondamental multimodal pour la compréhension et la génération visuelle et linguistique. La plupart des modèles préentraînés existants souffrent de faibles performances en termes d’efficacité computationnelle et d’asymétrie d’information dues à la longueur des séquences visuelles dans l’alignement multimodal. Pour remédier à ces problèmes, mPLUG introduit une architecture vision-langage efficace et performante, basée sur des connexions croisées innovantes, qui établissent des raccourcis inter-couches permettant de sauter un certain nombre de couches, réduisant ainsi le temps nécessaire pour effectuer l’attention auto-complète complète du côté visuel. mPLUG est préentraîné de manière end-to-end sur de grandes collections de paires image-texte, avec à la fois des objectifs discriminatifs et génératifs. Il atteint des résultats de pointe sur une large gamme de tâches ultérieures vision-langage, telles que la génération de légendes d’images, la recherche d’images et de textes, le repérage visuel et la question-réponse visuelle. mPLUG démontre également une forte capacité de transfert zéro-shot lorsqu’il est directement appliqué à plusieurs tâches vidéo-langage.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
mPLUG : Apprentissage vision-langage efficace et performant grâce aux connexions sautées inter-modales | Articles | HyperAI