HyperAIHyperAI

Command Palette

Search for a command to run...

Photorealistische Videogenerierung mit Diffusionsmodellen

Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Li Fei-Fei Irfan Essa Lu Jiang José Lezama

Zusammenfassung

Wir stellen W.A.L.T. vor, einen auf Transformers basierenden Ansatz zur generativen Erstellung photorealistischer Videos mittels Diffusionsmodellierung. Unser Ansatz beruht auf zwei zentralen Gestaltungsentscheidungen. Erstens verwenden wir einen kausalen Encoder, um Bilder und Videos gemeinsam in einem einheitlichen latente Raum zu komprimieren, was eine gemeinsame Schulung und Generierung über verschiedene Modalitäten hinweg ermöglicht. Zweitens setzen wir zur Verbesserung der Speicher- und Trainingseffizienz eine Fenster-Attention-Architektur ein, die speziell für die gemeinsame räumliche und raumzeitliche generative Modellierung ausgelegt ist. In Kombination ermöglichen diese Gestaltungsentscheidungen, state-of-the-art Ergebnisse auf etablierten Benchmarks für Video- (UCF-101 und Kinetics-600) und Bildgenerierung (ImageNet) zu erzielen, ohne die Verwendung von classifier-free Guidance. Schließlich trainieren wir auch eine Kaskade aus drei Modellen für die Aufgabe der Text-zu-Video-Generierung, bestehend aus einem Basis-latenten Video-Diffusionsmodell sowie zwei Video-Super-Resolution-Diffusionsmodellen, um Videos mit einer Auflösung von 512×896512 \times 896512×896 bei 8 Bildern pro Sekunde zu generieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp