HyperAIHyperAI
il y a 7 jours

NÜWA : Pré-entraînement par synthèse visuelle pour la création de mondes visuels neuronaux

Chenfei Wu, Jian Liang, Lei Ji, Fan Yang, Yuejian Fang, Daxin Jiang, Nan Duan
NÜWA : Pré-entraînement par synthèse visuelle pour la création de mondes visuels neuronaux
Résumé

Cet article présente un modèle pré-entraîné multimodal unifié appelé NÜWA, capable de générer de nouvelles données visuelles ou de manipuler des données visuelles existantes (c’est-à-dire des images et des vidéos) pour diverses tâches de synthèse visuelle. Pour traiter simultanément le langage, les images et les vidéos dans différents scénarios, une architecture d’encodeur-décodeur à transformer 3D a été conçue, permettant non seulement de traiter les vidéos comme des données 3D, mais aussi de s’adapter respectivement aux textes (données 1D) et aux images (données 2D). Un mécanisme d’attention locale 3D (3DNA) est également proposé afin de tenir compte des caractéristiques propres des données visuelles tout en réduisant la complexité computationnelle. Nous évaluons NÜWA sur huit tâches en aval. Par rapport à plusieurs modèles de référence performants, NÜWA obtient des résultats de pointe dans des tâches telles que la génération d’images à partir de texte, la génération de vidéos à partir de texte, la prédiction de vidéos, etc. En outre, il démontre également des capacités étonnamment bonnes en zéro-shot sur des tâches de manipulation d’images et de vidéos guidées par le texte. Le dépôt du projet est disponible à l’adresse suivante : https://github.com/microsoft/NUWA.

NÜWA : Pré-entraînement par synthèse visuelle pour la création de mondes visuels neuronaux | Articles de recherche récents | HyperAI