HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

LongLive: Echtzeit-Interaktive Generierung langer Videos

LongLive: Echtzeit-Interaktive Generierung langer Videos

Abstract

Wir stellen LongLive vor, einen rahmenbasierten autoregressiven (AR) Rahmen für die Echtzeit- und interaktive Generierung langer Videos. Die Generierung langer Videos stellt sowohl hinsichtlich Effizienz als auch Qualität erhebliche Herausforderungen dar. Diffusionsmodelle und Diffusion-Forcing-Modelle können hochwertige Videos erzeugen, leiden jedoch aufgrund bidirektionaler Aufmerksamkeit unter geringer Effizienz. Kausale Aufmerksamkeits-AR-Modelle unterstützen die KV-Caching-Technik zur beschleunigten Inferenz, erzielen jedoch oft eine Qualitätseinbuße bei langen Videos aufgrund von Speicherproblemen während des Trainings langer Clips. Zudem sind über die statische, promptbasierte Generierung hinaus interaktive Funktionen – beispielsweise das Streaming von Prompt-Eingaben – entscheidend für die dynamische Inhaltschaffung, da sie es Nutzern ermöglichen, Geschichten in Echtzeit zu steuern. Diese interaktive Anforderung erhöht die Komplexität erheblich, insbesondere hinsichtlich der visuellen Konsistenz und semantischen Kohärenz bei Prompt-Übergängen. Um diese Herausforderungen zu bewältigen, setzt LongLive ein kausales, rahmenbasiertes AR-Design ein, das eine KV-Recache-Mechanismus integriert, um die zwischengespeicherten Zustände mit neuen Prompts zu aktualisieren und somit nahtlose, konsistente Wechsel zu gewährleisten; ein Streaming-Long-Tuning, das das Training langer Videos ermöglicht und Training und Inferenz (train-long-test-long) optimal ausrichtet; sowie eine kurze Fenster-Aufmerksamkeit in Kombination mit einem rahmenbasierten Aufmerksamkeits-Sink (Frame Sink), der die Langzeit-Konsistenz bewahrt und gleichzeitig eine schnellere Generierung erlaubt. Mit diesen zentralen Designentscheidungen feintuntet LongLive ein Modell mit 1,3 Milliarden Parametern, das ursprünglich für kurze Clips konzipiert war, innerhalb von nur 32 GPU-Tagen auf die Generierung von Minutenlängen-Video ausrichtet. In der Inferenz erreicht LongLive auf einer einzigen NVIDIA H100 eine Geschwindigkeit von 20,7 FPS und erzielt auf VBench sowohl bei kurzen als auch bei langen Videos starke Leistungen. LongLive unterstützt zudem Videos bis zu 240 Sekunden Länge auf einer einzigen H100-GPU. Darüber hinaus ermöglicht LongLive eine INT8-quantisierte Inferenz mit nur geringfügigem Qualitätsverlust.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LongLive: Echtzeit-Interaktive Generierung langer Videos | Forschungsarbeiten | HyperAI