Command Palette
Search for a command to run...
LongLive: Echtzeit-Interaktive Generierung langer Videos

Abstract
Wir stellen LongLive vor, einen rahmenbasierten autoregressiven (AR) Rahmen für die Echtzeit- und interaktive Generierung langer Videos. Die Generierung langer Videos stellt sowohl hinsichtlich Effizienz als auch Qualität erhebliche Herausforderungen dar. Diffusionsmodelle und Diffusion-Forcing-Modelle können hochwertige Videos erzeugen, leiden jedoch aufgrund bidirektionaler Aufmerksamkeit unter geringer Effizienz. Kausale Aufmerksamkeits-AR-Modelle unterstützen die KV-Caching-Technik zur beschleunigten Inferenz, erzielen jedoch oft eine Qualitätseinbuße bei langen Videos aufgrund von Speicherproblemen während des Trainings langer Clips. Zudem sind über die statische, promptbasierte Generierung hinaus interaktive Funktionen – beispielsweise das Streaming von Prompt-Eingaben – entscheidend für die dynamische Inhaltschaffung, da sie es Nutzern ermöglichen, Geschichten in Echtzeit zu steuern. Diese interaktive Anforderung erhöht die Komplexität erheblich, insbesondere hinsichtlich der visuellen Konsistenz und semantischen Kohärenz bei Prompt-Übergängen. Um diese Herausforderungen zu bewältigen, setzt LongLive ein kausales, rahmenbasiertes AR-Design ein, das eine KV-Recache-Mechanismus integriert, um die zwischengespeicherten Zustände mit neuen Prompts zu aktualisieren und somit nahtlose, konsistente Wechsel zu gewährleisten; ein Streaming-Long-Tuning, das das Training langer Videos ermöglicht und Training und Inferenz (train-long-test-long) optimal ausrichtet; sowie eine kurze Fenster-Aufmerksamkeit in Kombination mit einem rahmenbasierten Aufmerksamkeits-Sink (Frame Sink), der die Langzeit-Konsistenz bewahrt und gleichzeitig eine schnellere Generierung erlaubt. Mit diesen zentralen Designentscheidungen feintuntet LongLive ein Modell mit 1,3 Milliarden Parametern, das ursprünglich für kurze Clips konzipiert war, innerhalb von nur 32 GPU-Tagen auf die Generierung von Minutenlängen-Video ausrichtet. In der Inferenz erreicht LongLive auf einer einzigen NVIDIA H100 eine Geschwindigkeit von 20,7 FPS und erzielt auf VBench sowohl bei kurzen als auch bei langen Videos starke Leistungen. LongLive unterstützt zudem Videos bis zu 240 Sekunden Länge auf einer einzigen H100-GPU. Darüber hinaus ermöglicht LongLive eine INT8-quantisierte Inferenz mit nur geringfügigem Qualitätsverlust.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.