vor 7 Tagen

Make-A-Video: Text-to-Video-Generierung ohne Text-Video-Daten

Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman

Details der Forschungsarbeit anzeigen

Make-A-Video: Text-to-Video-Generierung ohne Text-Video-Daten

Abstract

Wir stellen Make-A-Video vor – einen Ansatz zur direkten Übertragung der beeindruckenden jüngsten Fortschritte in der Text-zu-Bild-(T2I)-Generierung auf die Text-zu-Video-(T2V)-Generierung. Unser Ansatz basiert auf einer einfachen Intuition: Lerne, wie die Welt aussieht und wie sie beschrieben wird, anhand gepaarter Text-Bild-Daten, und erlerne, wie sich die Welt bewegt, anhand von unüberwachten Videofußnoten. Make-A-Video bietet drei Vorteile: (1) Es beschleunigt das Training des T2V-Modells (es muss visuelle und multimodale Darstellungen nicht von Grund auf neu lernen), (2) es erfordert keine gepaarten Text-Videodaten, und (3) die generierten Videos erben die Vielfalt (Diversität in Ästhetik, phantastische Darstellungen usw.) der heutigen Bildgenerationsmodelle. Wir entwickeln eine einfache, jedoch effektive Methode, um auf bestehenden T2I-Modellen aufzubauen, indem wir neuartige und effektive räumlich-zeitliche Module einsetzen. Zunächst zerlegen wir den vollständigen zeitlichen U-Netz- und Aufmerksamkeits-Tensor und approximieren sie räumlich und zeitlich. Zweitens entwerfen wir eine räumlich-zeitliche Pipeline zur Erzeugung von hochauflösenden und schnellfliegenden Videos mit einem Videodecoder, einem Interpolationsmodell sowie zwei Super-Resolution-Modellen, die darüber hinaus für diverse Anwendungen neben der T2V-Generierung nutzbar sind. In allen Aspekten – räumliche und zeitliche Auflösung, Treue zur Eingabeschrift und Qualität – erreicht Make-A-Video gemäß qualitativen und quantitativen Maßstäben die neue State-of-the-Art in der Text-zu-Video-Generierung.