vor 11 Tagen

Snap Video: Skalierte räumlich-zeitliche Transformer für die Text-zu-Video-Synthese

Willi Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov

Details der Forschungsarbeit anzeigen

Snap Video: Skalierte räumlich-zeitliche Transformer für die Text-zu-Video-Synthese

Abstract

Moderne Modelle zur Bildgenerierung zeigen bemerkenswerte Qualität und Vielseitigkeit. Angesichts dieser Vorteile adaptiert die Forschungsgemeinschaft diese Modelle zunehmend für die Videoerzeugung. Da Videoinhalte hochgradig redundant sind, argumentieren wir, dass eine naiv übertragene Nutzung der Fortschritte in der Bildgenerierung die Bewegungsfidelität, die visuelle Qualität und die Skalierbarkeit beeinträchtigt. In dieser Arbeit stellen wir Snap Video vor – ein video-erstes Modell, das diese Herausforderungen systematisch angeht. Dazu erweitern wir zunächst den EDM-Framework, um räumlich-zeitlich redundante Pixel zu berücksichtigen und die Videoerzeugung natürlicher zu unterstützen. Zweitens zeigen wir, dass eine U-Net-Architektur – das zentrale Bauelement der Bildgenerierung – bei der Videoerzeugung schlecht skaliert und erhebliche rechnerische Aufwände verursacht. Daher schlagen wir eine neue, auf Transformers basierende Architektur vor, die 3,31-mal schneller trainiert als U-Netzwerke (und bei der Inferenz etwa 4,5-mal schneller ist). Dies ermöglicht erstmals die effiziente Trainierung eines Text-zu-Video-Modells mit mehreren Milliarden Parametern, führt zu state-of-the-art-Ergebnissen auf mehreren Benchmarks und erzeugt Videos mit erheblich höherer Qualität, zeitlicher Konsistenz und Bewegungskomplexität. Nutzerstudien zeigten, dass unser Modell im Vergleich zu den neuesten Ansätzen deutlich bevorzugt wird. Weitere Informationen finden Sie auf unserer Website: https://snap-research.github.io/snapvideo/.