HyperAIHyperAI
vor 2 Monaten

NUWA-Infinity: Autoregressiv über Autoregressiv für unendliche visuelle Synthese

Wu, Chenfei ; Liang, Jian ; Hu, Xiaowei ; Gan, Zhe ; Wang, Jianfeng ; Wang, Lijuan ; Liu, Zicheng ; Fang, Yuejian ; Duan, Nan
NUWA-Infinity: Autoregressiv über Autoregressiv für unendliche visuelle Synthese
Abstract

In dieser Arbeit stellen wir NUWA-Infinity vor, ein generatives Modell für die unendliche visuelle Synthese, das als die Aufgabe definiert ist, beliebig große hochaufgelöste Bilder oder langdauernde Videos zu erzeugen. Es wird ein autoregressives über autoregressives Generierungsmechanismus vorgeschlagen, um diese variable Größen-Generierungsaufgabe zu bewältigen. Dabei berücksichtigt ein globales Patch-Level-Autoregressivmodell die Abhängigkeiten zwischen den Patches und ein lokales Token-Level-Autoregressivmodell die Abhängigkeiten zwischen den visuellen Tokens innerhalb jedes Patches. Ein Nearby Context Pool (NCP) wird eingeführt, um bereits generierte relevante Patches als Kontext für den aktuellen Patch zu speichern. Dies kann die Rechenkosten erheblich reduzieren, ohne die Modellierung der Patch-Level-Abhängigkeiten zu beeinträchtigen. Ein Arbitrary Direction Controller (ADC) wird verwendet, um geeignete Generierungsbereihenfolgen für verschiedene visuelle Syntheseaufgaben festzulegen und ordnungsbewusste positionale Einbettungen zu lernen. Im Vergleich zu DALL-E, Imagen und Parti kann NUWA-Infinity hochaufgelöste Bilder beliebiger Größe erzeugen und unterstützt zudem die Erstellung von langdauernden Videos. Im Vergleich zu NUWA, das ebenfalls Bilder und Videos abdeckt, zeichnet sich NUWA-Infinity durch überlegene visuelle Synthesefähigkeiten in Bezug auf Auflösung und variablen Größen-Generierung aus. Der GitHub-Link lautet: https://github.com/microsoft/NUWA. Die Homepage-Adresse ist: https://nuwa-infinity.microsoft.com.

NUWA-Infinity: Autoregressiv über Autoregressiv für unendliche visuelle Synthese | Neueste Forschungsarbeiten | HyperAI