HyperAIHyperAI
il y a 2 mois

Ému : Préformation générative en multimodalité

Quan Sun; Qiying Yu; Yufeng Cui; Fan Zhang; Xiaosong Zhang; Yueze Wang; Hongcheng Gao; Jingjing Liu; Tiejun Huang; Xinlong Wang
Ému : Préformation générative en multimodalité
Résumé

Nous présentons Emu, un modèle fondamental multimodal basé sur le Transformer, capable de générer des images et des textes de manière fluide dans un contexte multimodal. Ce modèle omnivore peut traiter indifféremment toute entrée de données mono-modale ou multimodale (par exemple, des images, du texte et des vidéos entrelacés) grâce à un processus d'entraînement autorégressif unique pour toutes les modalités. Tout d'abord, les signaux visuels sont encodés en embeddings, puis combinés avec les jetons de texte pour former une séquence d'entrée entrelacée. Emu est ensuite entraîné de bout en bout avec un objectif unifié consistant à classifier le prochain jeton de texte ou à régresser le prochain embedding visuel dans la séquence multimodale. Cette polyvalence multimodale permet l'exploration à grande échelle de diverses sources de données pré-entraînées, telles que des vidéos avec des images et du texte entrelacés, des pages web avec des images et du texte entrelacés, ainsi que des paires d'images-texte et des paires de vidéos-texte à l'échelle du web. Emu peut servir d'interface multimodale généraliste pour les tâches d'image vers texte et de texte vers image, et prend en charge la génération in-contexte d'images et de textes. Sur une large gamme de tâches zero-shot/few-shot, notamment la légendage d'images, la réponse à des questions visuelles, la réponse à des questions vidéo et la génération d'images à partir de textes, Emu montre des performances exceptionnelles comparées aux grands modèles multimodaux actuels. Des capacités étendues telles que l'aide multimodale par ajustement d'instructions sont également démontrées avec des performances impressionnantes.

Ému : Préformation générative en multimodalité | Articles de recherche récents | HyperAI