HyperAI

Zusammenfassung

In jüngster Zeit haben videobasierte Diffusions-Foundation-Modelle bemerkenswerte Fortschritte in der qualitativ hochwertigen Videogenerierung erzielt, dennoch bleibt die Transformation dieser Modelle in Echtzeit-interaktive Video-World-Models eine Herausforderung. Interaktive World-Models erfordern einen kontrollierbaren, kausalen und latenzarmen Rollout, was in der Praxis eine durchgängige Pipeline voraussetzt, die Datenkonstruktion, kontrolliertes Fine-Tuning, autoregressives Training, Few-Step-Distillation sowie Streaming-Inference abdeckt. In dieser Arbeit präsentieren wir minWM, ein Full-Stack-Open-Source-Framework zur Entwicklung von Echtzeit-interaktiven Video-World-Models. minWM stellt eine End-to-End-Pipeline bereit, die bestehende bidirektionale T2V/TI2V-Video-Foundation-Modelle in kamera-steuerbare Few-Step-autoregressive World-Models transformiert. Konkret wird bei minWM zunächst ein bidirektionales Video-Diffusionsmodell mit Kamerasteuerung feinjustiert, anschließend wird die Causal Forcing / Causal Forcing++-Pipeline angewendet. Diese umfasst das AR-Diffusionstraining, die kausale ODE- bzw. kausale Konsistenz-Distillation sowie das asymmetrische DMD, um das Modell in einen Few-Step-autoregressiven Generator für latenzarmen Rollout zu distillieren. Das Framework ist modular und architekturell erweiterbar: Wir instanziieren es auf repräsentativen Open-Source-Backbones, darunter Wan2.1-T2V-1.3B und HY1.5-TI2V-8B, und berücksichtigen dabei sowohl die bedingungs-Injektion auf Basis von Cross-Attention als auch Architekturen im MMDiT-Stil. Darüber hinaus unterstützt minWM die Anpassung bestehender Video-World-Models, wie beispielsweise HY-WorldPlay, an neue Datenverteilungen, Trainingsrezepte und Latenzziele. Neben der Veröffentlichung lauffähiger Skripte, Checkpoints, der Dokumentation sowie des Inferenzcodes bieten wir praxisnahe Ablationsstudien zur Qualität von Kameratrajektorien, den Schritten des Kontrollierbarkeits-Trainings sowie den Anforderungen an die minimale Batch-Größe. Wir hoffen, dass minWM als reproduzierbare und erweiterbare Anleitung zum Aufbau und zur Anpassung von Echtzeit-interaktiven Video-World-Models dient. Projektseite: https://github.com/shengshu-ai/minWM

Zusammenfassung

Min Zhao Hongzhou Zhu Bokai Yan Zihan Zhou Yimin Chen Wenqiang Sun Kaiwen Zheng Guande He Xiao Yang Chongxuan Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Min Zhao Hongzhou Zhu Bokai Yan Zihan Zhou Yimin Chen Wenqiang Sun Kaiwen Zheng Guande He Xiao Yang Chongxuan Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Min Zhao Hongzhou Zhu Bokai Yan Zihan Zhou Yimin Chen Wenqiang Sun Kaiwen Zheng Guande He Xiao Yang Chongxuan Li

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

minWM: Ein Full-Stack-Open-Source-Framework für Echtzeit-interaktive Video-Weltmodelle

Min Zhao Hongzhou Zhu Bokai Yan Zihan Zhou Yimin Chen Wenqiang Sun Kaiwen Zheng Guande He Xiao Yang Chongxuan Li2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

minWM: Ein Full-Stack-Open-Source-Framework für Echtzeit-interaktive Video-Weltmodelle

Min Zhao Hongzhou Zhu Bokai Yan Zihan Zhou Yimin Chen Wenqiang Sun Kaiwen Zheng Guande He Xiao Yang Chongxuan Li2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

minWM: Ein Full-Stack-Open-Source-Framework für Echtzeit-interaktive Video-Weltmodelle

Min Zhao Hongzhou Zhu Bokai Yan Zihan Zhou Yimin Chen Wenqiang Sun Kaiwen Zheng Guande He Xiao Yang Chongxuan Li2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Min Zhao Hongzhou Zhu Bokai Yan Zihan Zhou Yimin Chen Wenqiang Sun Kaiwen Zheng Guande He Xiao Yang Chongxuan Li

Min Zhao Hongzhou Zhu Bokai Yan Zihan Zhou Yimin Chen Wenqiang Sun Kaiwen Zheng Guande He Xiao Yang Chongxuan Li

Min Zhao Hongzhou Zhu Bokai Yan Zihan Zhou Yimin Chen Wenqiang Sun Kaiwen Zheng Guande He Xiao Yang Chongxuan Li