HyperAIHyperAI

Command Palette

Search for a command to run...

NÜWA : Pré-entraînement par synthèse visuelle pour la création de mondes visuels neuronaux

Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan

Résumé

Cet article présente un modèle pré-entraîné multimodal unifié appelé NÜWA, capable de générer de nouvelles données visuelles ou de manipuler des données visuelles existantes (c’est-à-dire des images et des vidéos) pour diverses tâches de synthèse visuelle. Pour traiter simultanément le langage, les images et les vidéos dans différents scénarios, une architecture d’encodeur-décodeur à transformer 3D a été conçue, permettant non seulement de traiter les vidéos comme des données 3D, mais aussi de s’adapter respectivement aux textes (données 1D) et aux images (données 2D). Un mécanisme d’attention locale 3D (3DNA) est également proposé afin de tenir compte des caractéristiques propres des données visuelles tout en réduisant la complexité computationnelle. Nous évaluons NÜWA sur huit tâches en aval. Par rapport à plusieurs modèles de référence performants, NÜWA obtient des résultats de pointe dans des tâches telles que la génération d’images à partir de texte, la génération de vidéos à partir de texte, la prédiction de vidéos, etc. En outre, il démontre également des capacités étonnamment bonnes en zéro-shot sur des tâches de manipulation d’images et de vidéos guidées par le texte. Le dépôt du projet est disponible à l’adresse suivante : https://github.com/microsoft/NUWA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp