Yume: Ein interaktives Modell zur Weltgenerierung

Yume zielt darauf ab, mithilfe von Bildern, Text oder Videos eine interaktive, realistische und dynamische Welt zu erschaffen, die mit peripheren Geräten oder neuralen Signalen erkundet und gesteuert werden kann. In dieser Arbeit präsentieren wir eine Vorschau-Version von \method, die aus einem Eingangsbild eine dynamische Welt generiert und die Erkundung dieser Welt durch Tastatureingaben ermöglicht. Um die Erzeugung einer hochwertigen und interaktiven Video-Welt zu erreichen, führen wir ein gut gestaltetes Framework ein, das aus vier Hauptkomponenten besteht: Kamerabewegungs-Quantisierung, Video-Generierungsarchitektur, erweitertes Sampling-Verfahren und Modell-Optimierung. Zunächst quantisieren wir Kamerabewegungen, um eine stabile Ausbildung und eine benutzerfreundliche Interaktion über Tastatureingaben zu ermöglichen. Danach führen wir den Masked Video Diffusion Transformer~(MVDT) mit einem Gedächtnis-Modul ein, um unendliche Video-Generierung in einer autoregressiven Weise zu erreichen. Anschließend werden der training-free Anti-Artifact Mechanismus (AAM) und das Time Travel Sampling basierend auf stochastischen Differentialgleichungen (TTS-SDE) in das Sampling-Verfahren integriert, um eine bessere visuelle Qualität und eine präzisere Steuerung zu gewährleisten. Darüber hinaus untersuchen wir die Modell-Optimierung durch eine synergetische Verbesserung des adversarial distillation und des Caching-Mechanismus. Wir trainieren \method auf dem hochwertigen Welt-Erkundungs-Datensatz \sekai und erreichen bemerkenswerte Ergebnisse in verschiedenen Szenarien und Anwendungen. Alle Daten, der Code-Base und die Modellgewichte sind auf https://github.com/stdstu12/YUME verfügbar. Yume wird monatlich aktualisiert, um sein ursprüngliches Ziel zu erreichen. Projektseite: https://stdstu12.github.io/YUME-Project/.