Make-A-Video: Text-to-Video-Generierung ohne Text-Video-Daten

Wir stellen Make-A-Video vor – einen Ansatz zur direkten Übertragung der beeindruckenden jüngsten Fortschritte in der Text-zu-Bild-(T2I)-Generierung auf die Text-zu-Video-(T2V)-Generierung. Unser Ansatz basiert auf einer einfachen Intuition: Lerne, wie die Welt aussieht und wie sie beschrieben wird, anhand gepaarter Text-Bild-Daten, und erlerne, wie sich die Welt bewegt, anhand von unüberwachten Videofußnoten. Make-A-Video bietet drei Vorteile: (1) Es beschleunigt das Training des T2V-Modells (es muss visuelle und multimodale Darstellungen nicht von Grund auf neu lernen), (2) es erfordert keine gepaarten Text-Videodaten, und (3) die generierten Videos erben die Vielfalt (Diversität in Ästhetik, phantastische Darstellungen usw.) der heutigen Bildgenerationsmodelle. Wir entwickeln eine einfache, jedoch effektive Methode, um auf bestehenden T2I-Modellen aufzubauen, indem wir neuartige und effektive räumlich-zeitliche Module einsetzen. Zunächst zerlegen wir den vollständigen zeitlichen U-Netz- und Aufmerksamkeits-Tensor und approximieren sie räumlich und zeitlich. Zweitens entwerfen wir eine räumlich-zeitliche Pipeline zur Erzeugung von hochauflösenden und schnellfliegenden Videos mit einem Videodecoder, einem Interpolationsmodell sowie zwei Super-Resolution-Modellen, die darüber hinaus für diverse Anwendungen neben der T2V-Generierung nutzbar sind. In allen Aspekten – räumliche und zeitliche Auflösung, Treue zur Eingabeschrift und Qualität – erreicht Make-A-Video gemäß qualitativen und quantitativen Maßstäben die neue State-of-the-Art in der Text-zu-Video-Generierung.