vor 2 Monaten

Yunhong Lu Yanhong Zeng Haobo Li Hao Ouyang Qiuyu Wang Ka Leong Cheng Jiapeng Zhu Hengyuan Cao Zhipeng Zhang Xing Zhu

Zusammenfassung

Effiziente Streaming-Video-Generierung ist entscheidend für die Simulation interaktiver und dynamischer Welten. Bestehende Methoden reduzieren wenige Schritte umfassende Video-Diffusionsmodelle mittels Schiebefenster-Attention, wobei die Ausgangsframes als Sink-Tokens verwendet werden, um die Attention-Leistung zu erhalten und Fehlerakkumulation zu verringern. Allerdings werden die Videoframes übermäßig von diesen statischen Tokens abhängig, was zu wiederholten Ausgangsframes und einer verminderten Bewegungsdynamik führt. Um dieses Problem anzugehen, stellen wir Reward Forcing vor, einen neuartigen Rahmen mit zwei zentralen Designelementen. Erstens führen wir EMA-Sink ein, das feste, aus den Ausgangsframes initialisierte Tokens beibehält und diese kontinuierlich durch Fusion der aus dem Schiebefenster ausgetretenen Tokens mittels exponentieller gleitender Durchschnittsverfahren aktualisiert. Ohne zusätzlichen Rechenaufwand erfassen die EMA-Sink-Tokens sowohl langfristigen Kontext als auch aktuelle Dynamik, verhindern das Kopieren der Ausgangsframes und gewährleisten gleichzeitig eine konsistente Langzeitgenerierung. Zweitens schlagen wir eine neue Methode namens Rewarded Distribution Matching Distillation (Re-DMD) vor, um die Bewegungsdynamik effizienter aus Lehrmodellen zu übertragen. Die herkömmliche Verteilungsübereinstimmung behandelt alle Trainingsbeispiele gleich, was die Fähigkeit des Modells einschränkt, dynamische Inhalte zu priorisieren. Im Gegensatz dazu lenkt Re-DMD die Ausgabeverteilung des Modells gezielt in Regionen mit hohem Belohnungswert, indem es Beispiele mit stärkerer Dynamik, bewertet durch ein Vision-Language-Modell, bevorzugt. Re-DMD verbessert signifikant die Bewegungsqualität, ohne die Datentreue zu beeinträchtigen. Wir präsentieren sowohl quantitative als auch qualitative Experimente, die zeigen, dass Reward Forcing auf Standardbenchmarks die derzeit beste Leistung erzielt und gleichzeitig hochwertige Streaming-Video-Generierung mit 23,1 FPS auf einer einzigen H100-GPU ermöglicht.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Yunhong Lu Yanhong Zeng Haobo Li Hao Ouyang Qiuyu Wang Ka Leong Cheng Jiapeng Zhu Hengyuan Cao Zhipeng Zhang Xing Zhu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Yunhong Lu Yanhong Zeng Haobo Li Hao Ouyang Qiuyu Wang Ka Leong Cheng Jiapeng Zhu Hengyuan Cao Zhipeng Zhang Xing Zhu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Reward Forcing: Effiziente Streaming-Videoerzeugung mittels belohnungsorientierter Verteilungsübereinstimmungs-Distillation

Yunhong Lu Yanhong Zeng Haobo Li Hao Ouyang Qiuyu Wang Ka Leong Cheng Jiapeng Zhu Hengyuan Cao Zhipeng Zhang Xing Zhu2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Reward Forcing: Effiziente Streaming-Videoerzeugung mittels belohnungsorientierter Verteilungsübereinstimmungs-Distillation

Yunhong Lu Yanhong Zeng Haobo Li Hao Ouyang Qiuyu Wang Ka Leong Cheng Jiapeng Zhu Hengyuan Cao Zhipeng Zhang Xing Zhu2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Reward Forcing: Effiziente Streaming-Videoerzeugung mittels belohnungsorientierter Verteilungsübereinstimmungs-Distillation

Yunhong Lu Yanhong Zeng Haobo Li Hao Ouyang Qiuyu Wang Ka Leong Cheng Jiapeng Zhu Hengyuan Cao Zhipeng Zhang Xing Zhu2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Yunhong Lu Yanhong Zeng Haobo Li Hao Ouyang Qiuyu Wang Ka Leong Cheng Jiapeng Zhu Hengyuan Cao Zhipeng Zhang Xing Zhu

Yunhong Lu Yanhong Zeng Haobo Li Hao Ouyang Qiuyu Wang Ka Leong Cheng Jiapeng Zhu Hengyuan Cao Zhipeng Zhang Xing Zhu

Yunhong Lu Yanhong Zeng Haobo Li Hao Ouyang Qiuyu Wang Ka Leong Cheng Jiapeng Zhu Hengyuan Cao Zhipeng Zhang Xing Zhu