Command Palette
Search for a command to run...
minWM: Ein Full-Stack-Open-Source-Framework für Echtzeit-interaktive Video-Weltmodelle
minWM: Ein Full-Stack-Open-Source-Framework für Echtzeit-interaktive Video-Weltmodelle
Zusammenfassung
In jüngster Zeit haben videobasierte Diffusions-Foundation-Modelle bemerkenswerte Fortschritte in der qualitativ hochwertigen Videogenerierung erzielt, dennoch bleibt die Transformation dieser Modelle in Echtzeit-interaktive Video-World-Models eine Herausforderung. Interaktive World-Models erfordern einen kontrollierbaren, kausalen und latenzarmen Rollout, was in der Praxis eine durchgängige Pipeline voraussetzt, die Datenkonstruktion, kontrolliertes Fine-Tuning, autoregressives Training, Few-Step-Distillation sowie Streaming-Inference abdeckt. In dieser Arbeit präsentieren wir minWM, ein Full-Stack-Open-Source-Framework zur Entwicklung von Echtzeit-interaktiven Video-World-Models. minWM stellt eine End-to-End-Pipeline bereit, die bestehende bidirektionale T2V/TI2V-Video-Foundation-Modelle in kamera-steuerbare Few-Step-autoregressive World-Models transformiert. Konkret wird bei minWM zunächst ein bidirektionales Video-Diffusionsmodell mit Kamerasteuerung feinjustiert, anschließend wird die Causal Forcing / Causal Forcing++-Pipeline angewendet. Diese umfasst das AR-Diffusionstraining, die kausale ODE- bzw. kausale Konsistenz-Distillation sowie das asymmetrische DMD, um das Modell in einen Few-Step-autoregressiven Generator für latenzarmen Rollout zu distillieren. Das Framework ist modular und architekturell erweiterbar: Wir instanziieren es auf repräsentativen Open-Source-Backbones, darunter Wan2.1-T2V-1.3B und HY1.5-TI2V-8B, und berücksichtigen dabei sowohl die bedingungs-Injektion auf Basis von Cross-Attention als auch Architekturen im MMDiT-Stil. Darüber hinaus unterstützt minWM die Anpassung bestehender Video-World-Models, wie beispielsweise HY-WorldPlay, an neue Datenverteilungen, Trainingsrezepte und Latenzziele. Neben der Veröffentlichung lauffähiger Skripte, Checkpoints, der Dokumentation sowie des Inferenzcodes bieten wir praxisnahe Ablationsstudien zur Qualität von Kameratrajektorien, den Schritten des Kontrollierbarkeits-Trainings sowie den Anforderungen an die minimale Batch-Größe. Wir hoffen, dass minWM als reproduzierbare und erweiterbare Anleitung zum Aufbau und zur Anpassung von Echtzeit-interaktiven Video-World-Models dient. Projektseite: https://github.com/shengshu-ai/minWM