HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 6 Tagen

Reward Forcing: Effiziente Streaming-Videoerzeugung mittels belohnungsorientierter Verteilungsübereinstimmungs-Distillation

Reward Forcing: Effiziente Streaming-Videoerzeugung mittels belohnungsorientierter Verteilungsübereinstimmungs-Distillation

Abstract

Effiziente Streaming-Video-Generierung ist entscheidend für die Simulation interaktiver und dynamischer Welten. Bestehende Methoden reduzieren wenige Schritte umfassende Video-Diffusionsmodelle mittels Schiebefenster-Attention, wobei die Ausgangsframes als Sink-Tokens verwendet werden, um die Attention-Leistung zu erhalten und Fehlerakkumulation zu verringern. Allerdings werden die Videoframes übermäßig von diesen statischen Tokens abhängig, was zu wiederholten Ausgangsframes und einer verminderten Bewegungsdynamik führt. Um dieses Problem anzugehen, stellen wir Reward Forcing vor, einen neuartigen Rahmen mit zwei zentralen Designelementen. Erstens führen wir EMA-Sink ein, das feste, aus den Ausgangsframes initialisierte Tokens beibehält und diese kontinuierlich durch Fusion der aus dem Schiebefenster ausgetretenen Tokens mittels exponentieller gleitender Durchschnittsverfahren aktualisiert. Ohne zusätzlichen Rechenaufwand erfassen die EMA-Sink-Tokens sowohl langfristigen Kontext als auch aktuelle Dynamik, verhindern das Kopieren der Ausgangsframes und gewährleisten gleichzeitig eine konsistente Langzeitgenerierung. Zweitens schlagen wir eine neue Methode namens Rewarded Distribution Matching Distillation (Re-DMD) vor, um die Bewegungsdynamik effizienter aus Lehrmodellen zu übertragen. Die herkömmliche Verteilungsübereinstimmung behandelt alle Trainingsbeispiele gleich, was die Fähigkeit des Modells einschränkt, dynamische Inhalte zu priorisieren. Im Gegensatz dazu lenkt Re-DMD die Ausgabeverteilung des Modells gezielt in Regionen mit hohem Belohnungswert, indem es Beispiele mit stärkerer Dynamik, bewertet durch ein Vision-Language-Modell, bevorzugt. Re-DMD verbessert signifikant die Bewegungsqualität, ohne die Datentreue zu beeinträchtigen. Wir präsentieren sowohl quantitative als auch qualitative Experimente, die zeigen, dass Reward Forcing auf Standardbenchmarks die derzeit beste Leistung erzielt und gleichzeitig hochwertige Streaming-Video-Generierung mit 23,1 FPS auf einer einzigen H100-GPU ermöglicht.

Code-Repositories

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp