vor 6 Monaten

Zusammenfassung

Wir präsentieren einen effizienten Text-zu-Video-Generierungs-Framework basierend auf latenter Diffusionsmodelle, der als MagicVideo bezeichnet wird. MagicVideo kann flüssige Videoclips erzeugen, die den gegebenen Textbeschreibungen entsprechen. Durch eine neuartige und effiziente 3D-U-Net-Architektur sowie die Modellierung von Videoverteilungen in einem niedrigdimensionalen Raum kann MagicVideo Videoclips mit einer räumlichen Auflösung von 256×256 auf einer einzigen GPU erzeugen, wobei die benötigten Berechnungen etwa 64-mal geringer sind als bei Video-Diffusionsmodellen (VDM) hinsichtlich der FLOPs. Insbesondere unterscheiden wir uns von bestehenden Ansätzen, die Videomodelle direkt im RGB-Raum trainieren, indem wir einen vortrainierten VAE nutzen, um Videoclips in einen niedrigdimensionalen latente Raum abzubilden und die Verteilung der latenten Codes mittels eines Diffusionsmodells zu lernen. Zudem führen wir zwei neue Architekturkomponenten ein, um den U-Net-Denoiser, der ursprünglich für Bildaufgaben trainiert wurde, an Videodaten anzupassen: einen frame-weisen, leichtgewichtigen Adapter zur Anpassung der Verteilung von Bild-zu-Video und ein gerichtetes zeitliches Aufmerksamkeitsmodul zur Erfassung zeitlicher Abhängigkeiten zwischen Frames. Dadurch können wir die informativen Gewichte der Faltungsoperatoren eines Text-zu-Bild-Modells nutzen, um den Trainingsprozess für Videos zu beschleunigen. Um das Pixeldithering in den generierten Videos zu reduzieren, schlagen wir zudem einen neuen VideoVAE-Autoencoder vor, der eine verbesserte Rekonstruktion im RGB-Raum ermöglicht. Wir führen umfangreiche Experimente durch und zeigen, dass MagicVideo hochwertige Videoclips mit sowohl realistischem als auch imaginärem Inhalt erzeugen kann. Weitere Beispiele finden Sie unter \url{https://magicvideo.github.io/#}.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Daquan Zhou Weimin Wang Hanshu Yan Weiwei Lv Yizhe Zhu Jiashi Feng

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Daquan Zhou Weimin Wang Hanshu Yan Weiwei Lv Yizhe Zhu Jiashi Feng

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

MagicVideo: Effiziente Videoerzeugung mit latenzbasierten Diffusionsmodellen | Paper | HyperAI

Command Palette

MagicVideo: Effiziente Videoerzeugung mit latenzbasierten Diffusionsmodellen

Daquan Zhou Weimin Wang Hanshu Yan Weiwei Lv Yizhe Zhu Jiashi Feng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MagicVideo: Effiziente Videoerzeugung mit latenzbasierten Diffusionsmodellen

Daquan Zhou Weimin Wang Hanshu Yan Weiwei Lv Yizhe Zhu Jiashi Feng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MagicVideo: Effiziente Videoerzeugung mit latenzbasierten Diffusionsmodellen

Daquan Zhou Weimin Wang Hanshu Yan Weiwei Lv Yizhe Zhu Jiashi Feng

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters