HyperAIHyperAI

Command Palette

Search for a command to run...

Swap Attention in Spatiotemporal Diffusions für Text-to-Video-Generierung

Wenjing Wang Huan Yang Zixi Tuo Huiguo He Junchen Zhu Jianlong Fu Jiaying Liu

Zusammenfassung

Mit der explosionsartigen Beliebtheit von künstlichem Intelligenz-generiertem Inhalt (AIGC) hat die Videoerzeugung in letzter Zeit erhebliche Aufmerksamkeit erhalten. Die Generierung von Videos anhand von Textanweisungen stellt erhebliche Herausforderungen dar, beispielsweise die Modellierung der komplexen Beziehung zwischen Raum und Zeit sowie der Mangel an großskaligen, text-video-kommentierten Datensätzen. Bestehende text-video-Datensätze leiden entweder an eingeschränkter Inhaltsgüte und Skalierbarkeit oder sind nicht öffentlich zugänglich, was ihre Nutzung und Untersuchung erschwert. In Bezug auf Modellarchitekturen erweitern frühere Ansätze vortrainierte Text-zu-Bild-Generationsmodelle durch Hinzufügen von zeitlichen 1D-Faltung- oder -Aufmerksamkeitsmodulen zur Videoerzeugung. Diese Ansätze vernachlässigen jedoch die Bedeutung einer gemeinsamen Modellierung von Raum und Zeit, was zwangsläufig zu zeitlichen Verzerrungen und einer Fehlausrichtung zwischen Text und Video führt. In diesem Paper präsentieren wir einen neuartigen Ansatz, der die Interaktion zwischen räumlicher und zeitlicher Wahrnehmung verstärkt. Insbesondere nutzen wir eine vertauschte Kreuz-Aufmerksamkeit (swapped cross-attention) innerhalb von 3D-Fenstern, bei der die „Abfrage“ (query) zwischen räumlichen und zeitlichen Blöcken abwechselnd übernommen wird, wodurch eine gegenseitige Verstärkung beider Komponenten ermöglicht wird. Darüber hinaus, um das volle Potenzial des Modells für die Erzeugung hochwertiger Videos auszuschöpfen und die Entwicklung des Forschungsfeldes voranzutreiben, haben wir einen großskaligen, öffentlich zugänglichen Video-Datensatz namens HD-VG-130M zusammengestellt. Dieser Datensatz umfasst 130 Millionen Text-Video-Paare aus offenen Domänen und gewährleistet hochauflösende, breitbildige und wasserzeichenfreie Inhalte. Eine kleiner skalierte, jedoch sorgfältig gereinigte Untergruppe erhöht zudem die Datengüte und unterstützt Modelle dabei, überlegene Leistungen zu erzielen. Experimentelle quantitative und qualitative Ergebnisse belegen die Überlegenheit unseres Ansatzes hinsichtlich der Bildqualität pro Frame, der zeitlichen Korrelation und der Text-Video-Ausrichtung mit deutlichen Vorteilen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp