NÜWA: Visual Synthesis Pre-training für die neuronale visuelle Weltgenerierung

Diese Arbeit präsentiert ein einheitliches multimodales Vortrainierungsmodell namens NÜWA, das in der Lage ist, neue visuelle Daten (also Bilder und Videos) zu generieren oder bestehende visuelle Daten zu manipulieren, um verschiedene Aufgaben der visuellen Synthese zu lösen. Um Sprache, Bilder und Videos gleichzeitig für unterschiedliche Szenarien abzudecken, wurde ein 3D-Transformer-Encoder-Decoder-Architektur entworfen, die nicht nur Videos als 3D-Daten verarbeiten kann, sondern sich auch an Texte (als 1D-Daten) und Bilder (als 2D-Daten) anpassen lässt. Außerdem wird ein 3D Nearby Attention (3DNA)-Mechanismus vorgeschlagen, der die Eigenschaften visueller Daten berücksichtigt und gleichzeitig die rechnerische Komplexität reduziert. NÜWA wird auf acht nachgeschalteten Aufgaben evaluiert. Im Vergleich zu mehreren starken Baselines erreicht NÜWA state-of-the-art-Ergebnisse bei der Text-zu-Bild-Generierung, der Text-zu-Video-Generierung sowie der Videovorhersage. Darüber hinaus zeigt das Modell überraschend gute Zero-Shot-Fähigkeiten bei textgesteuerten Aufgaben zur Bild- und Video-Manipulation. Der Projekt-Repository ist verfügbar unter: https://github.com/microsoft/NUWA.