HyperAIHyperAI
il y a 2 mois

Les Modèles Multimodaux Génératifs sont des Apprenants en Contexte

Quan Sun; Yufeng Cui; Xiaosong Zhang; Fan Zhang; Qiying Yu; Zhengxiong Luo; Yueze Wang; Yongming Rao; Jingjing Liu; Tiejun Huang; Xinlong Wang
Les Modèles Multimodaux Génératifs sont des Apprenants en Contexte
Résumé

La capacité humaine à résoudre facilement des tâches multimodales dans un contexte (c'est-à-dire avec seulement quelques démonstrations ou instructions simples) est ce que les systèmes multimodaux actuels ont largement du mal à imiter. Dans cette étude, nous démontrons que les capacités d'apprentissage en contexte de grands modèles multimodaux, indépendamment des tâches, peuvent être considérablement améliorées par une mise à l'échelle efficace. Nous présentons Emu2, un modèle génératif multimodal doté de 37 milliards de paramètres, formé sur de grandes séquences multimodales avec un objectif autoregressif unifié. Emu2 montre des capacités d'apprentissage en contexte multimodal robustes, même en étant capable de résoudre des tâches nécessitant une raisonnement instantané, telles que la stimulation visuelle et la génération liée aux objets. Le modèle établit un nouveau record sur plusieurs tâches de compréhension multimodale dans des configurations à faible nombre de démonstrations. Lorsqu'il est ajusté pour suivre des instructions spécifiques, Emu2 atteint de nouveaux standards dans des tâches complexes comme les benchmarks de questions-réponses pour grands modèles multimodaux et la génération ouverte guidée par le sujet. Ces réalisations montrent qu'Emu2 peut servir de modèle de base et d'interface polyvalente pour une large gamme de tâches multimodales. Le code et les modèles sont disponibles publiquement pour faciliter les recherches futures.

Les Modèles Multimodaux Génératifs sont des Apprenants en Contexte | Articles de recherche récents | HyperAI