HyperAIHyperAI
vor 11 Tagen

MagicVideo: Effiziente Videoerzeugung mit latenzbasierten Diffusionsmodellen

Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, Jiashi Feng
MagicVideo: Effiziente Videoerzeugung mit latenzbasierten Diffusionsmodellen
Abstract

Wir präsentieren einen effizienten Text-zu-Video-Generierungs-Framework basierend auf latenter Diffusionsmodelle, der als MagicVideo bezeichnet wird. MagicVideo kann flüssige Videoclips erzeugen, die den gegebenen Textbeschreibungen entsprechen. Durch eine neuartige und effiziente 3D-U-Net-Architektur sowie die Modellierung von Videoverteilungen in einem niedrigdimensionalen Raum kann MagicVideo Videoclips mit einer räumlichen Auflösung von 256×256 auf einer einzigen GPU erzeugen, wobei die benötigten Berechnungen etwa 64-mal geringer sind als bei Video-Diffusionsmodellen (VDM) hinsichtlich der FLOPs. Insbesondere unterscheiden wir uns von bestehenden Ansätzen, die Videomodelle direkt im RGB-Raum trainieren, indem wir einen vortrainierten VAE nutzen, um Videoclips in einen niedrigdimensionalen latente Raum abzubilden und die Verteilung der latenten Codes mittels eines Diffusionsmodells zu lernen. Zudem führen wir zwei neue Architekturkomponenten ein, um den U-Net-Denoiser, der ursprünglich für Bildaufgaben trainiert wurde, an Videodaten anzupassen: einen frame-weisen, leichtgewichtigen Adapter zur Anpassung der Verteilung von Bild-zu-Video und ein gerichtetes zeitliches Aufmerksamkeitsmodul zur Erfassung zeitlicher Abhängigkeiten zwischen Frames. Dadurch können wir die informativen Gewichte der Faltungsoperatoren eines Text-zu-Bild-Modells nutzen, um den Trainingsprozess für Videos zu beschleunigen. Um das Pixeldithering in den generierten Videos zu reduzieren, schlagen wir zudem einen neuen VideoVAE-Autoencoder vor, der eine verbesserte Rekonstruktion im RGB-Raum ermöglicht. Wir führen umfangreiche Experimente durch und zeigen, dass MagicVideo hochwertige Videoclips mit sowohl realistischem als auch imaginärem Inhalt erzeugen kann. Weitere Beispiele finden Sie unter \url{https://magicvideo.github.io/#}.

MagicVideo: Effiziente Videoerzeugung mit latenzbasierten Diffusionsmodellen | Neueste Forschungsarbeiten | HyperAI