HyperAIHyperAI

Command Palette

Search for a command to run...

minWM: Ein Full-Stack-Open-Source-Framework für Echtzeit-interaktive Video-Weltmodelle

Zusammenfassung

In jüngster Zeit haben videobasierte Diffusions-Foundation-Modelle bemerkenswerte Fortschritte in der qualitativ hochwertigen Videogenerierung erzielt, dennoch bleibt die Transformation dieser Modelle in Echtzeit-interaktive Video-World-Models eine Herausforderung. Interaktive World-Models erfordern einen kontrollierbaren, kausalen und latenzarmen Rollout, was in der Praxis eine durchgängige Pipeline voraussetzt, die Datenkonstruktion, kontrolliertes Fine-Tuning, autoregressives Training, Few-Step-Distillation sowie Streaming-Inference abdeckt. In dieser Arbeit präsentieren wir minWM, ein Full-Stack-Open-Source-Framework zur Entwicklung von Echtzeit-interaktiven Video-World-Models. minWM stellt eine End-to-End-Pipeline bereit, die bestehende bidirektionale T2V/TI2V-Video-Foundation-Modelle in kamera-steuerbare Few-Step-autoregressive World-Models transformiert. Konkret wird bei minWM zunächst ein bidirektionales Video-Diffusionsmodell mit Kamerasteuerung feinjustiert, anschließend wird die Causal Forcing / Causal Forcing++-Pipeline angewendet. Diese umfasst das AR-Diffusionstraining, die kausale ODE- bzw. kausale Konsistenz-Distillation sowie das asymmetrische DMD, um das Modell in einen Few-Step-autoregressiven Generator für latenzarmen Rollout zu distillieren. Das Framework ist modular und architekturell erweiterbar: Wir instanziieren es auf repräsentativen Open-Source-Backbones, darunter Wan2.1-T2V-1.3B und HY1.5-TI2V-8B, und berücksichtigen dabei sowohl die bedingungs-Injektion auf Basis von Cross-Attention als auch Architekturen im MMDiT-Stil. Darüber hinaus unterstützt minWM die Anpassung bestehender Video-World-Models, wie beispielsweise HY-WorldPlay, an neue Datenverteilungen, Trainingsrezepte und Latenzziele. Neben der Veröffentlichung lauffähiger Skripte, Checkpoints, der Dokumentation sowie des Inferenzcodes bieten wir praxisnahe Ablationsstudien zur Qualität von Kameratrajektorien, den Schritten des Kontrollierbarkeits-Trainings sowie den Anforderungen an die minimale Batch-Größe. Wir hoffen, dass minWM als reproduzierbare und erweiterbare Anleitung zum Aufbau und zur Anpassung von Echtzeit-interaktiven Video-World-Models dient. Projektseite: https://github.com/shengshu-ai/minWM


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp