Reward Forcing: Effiziente Streaming-Videoerzeugung mittels belohnungsorientierter Verteilungsübereinstimmungs-Distillation
Reward Forcing: Effiziente Streaming-Videoerzeugung mittels belohnungsorientierter Verteilungsübereinstimmungs-Distillation

Abstract
Effiziente Streaming-Video-Generierung ist entscheidend für die Simulation interaktiver und dynamischer Welten. Bestehende Methoden reduzieren wenige Schritte umfassende Video-Diffusionsmodelle mittels Schiebefenster-Attention, wobei die Ausgangsframes als Sink-Tokens verwendet werden, um die Attention-Leistung zu erhalten und Fehlerakkumulation zu verringern. Allerdings werden die Videoframes übermäßig von diesen statischen Tokens abhängig, was zu wiederholten Ausgangsframes und einer verminderten Bewegungsdynamik führt. Um dieses Problem anzugehen, stellen wir Reward Forcing vor, einen neuartigen Rahmen mit zwei zentralen Designelementen. Erstens führen wir EMA-Sink ein, das feste, aus den Ausgangsframes initialisierte Tokens beibehält und diese kontinuierlich durch Fusion der aus dem Schiebefenster ausgetretenen Tokens mittels exponentieller gleitender Durchschnittsverfahren aktualisiert. Ohne zusätzlichen Rechenaufwand erfassen die EMA-Sink-Tokens sowohl langfristigen Kontext als auch aktuelle Dynamik, verhindern das Kopieren der Ausgangsframes und gewährleisten gleichzeitig eine konsistente Langzeitgenerierung. Zweitens schlagen wir eine neue Methode namens Rewarded Distribution Matching Distillation (Re-DMD) vor, um die Bewegungsdynamik effizienter aus Lehrmodellen zu übertragen. Die herkömmliche Verteilungsübereinstimmung behandelt alle Trainingsbeispiele gleich, was die Fähigkeit des Modells einschränkt, dynamische Inhalte zu priorisieren. Im Gegensatz dazu lenkt Re-DMD die Ausgabeverteilung des Modells gezielt in Regionen mit hohem Belohnungswert, indem es Beispiele mit stärkerer Dynamik, bewertet durch ein Vision-Language-Modell, bevorzugt. Re-DMD verbessert signifikant die Bewegungsqualität, ohne die Datentreue zu beeinträchtigen. Wir präsentieren sowohl quantitative als auch qualitative Experimente, die zeigen, dass Reward Forcing auf Standardbenchmarks die derzeit beste Leistung erzielt und gleichzeitig hochwertige Streaming-Video-Generierung mit 23,1 FPS auf einer einzigen H100-GPU ermöglicht.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.