WorldPlay: Hin zu einer langfristigen geometrischen Konsistenz für Echtzeit-Interaktives Weltmodellieren
WorldPlay: Hin zu einer langfristigen geometrischen Konsistenz für Echtzeit-Interaktives Weltmodellieren
Wenqiang Sun Haiyu Zhang Haoyuan Wang Junta Wu Zehan Wang Zhenwei Wang Yunhong Wang Jun Zhang Tengfei Wang Chunchao Guo
Abstract
Diese Arbeit stellt WorldPlay vor, ein Streaming-Video-Diffusionsmodell, das eine Echtzeit-Interaktion mit langfristiger geometrischer Konsistenz bei der Weltmodellierung ermöglicht und das klassische Kompromiss zwischen Geschwindigkeit und Speicherbedarf überwindet, das aktuelle Methoden einschränkt. WorldPlay beruht auf drei zentralen Innovationen. 1) Wir nutzen eine Dual-Action-Darstellung, um eine robuste Aktionssteuerung in Reaktion auf Eingaben über Tastatur und Maus zu ermöglichen. 2) Um langfristige Konsistenz zu gewährleisten, nutzt unser Rekonstruiertes Kontext-Speicher-System kontinuierlich vergangene Frames zur dynamischen Neuaufbau von Kontextinformationen und setzt zeitliche Umrahmung (temporal reframing) ein, um geometrisch wichtige, aber lange zurückliegende Frames zugänglich zu halten – effektiv die durch Speicherdegradation verursachte Abschwächung von Kontextinformationen zu mindern. 3) Zudem präsentieren wir Context Forcing, eine neuartige Distillationstechnik, die speziell für speicherbewusste Modelle entwickelt wurde. Durch die Ausrichtung des Kontext-Speichers zwischen Lehrmodell und Schülermodell wird die Fähigkeit des Schülermodells bewahrt, langreichweitige Informationen zu nutzen, wodurch Echtzeit-Geschwindigkeiten erreicht werden können, ohne dass sich Fehler akkumulieren. Zusammenfassend erzeugt WorldPlay Streaming-Videos mit einer Auflösung von 720p und einer Framerate von 24 FPS über eine lange Horizontzeit hinweg mit herausragender Konsistenz. Die Ergebnisse überzeugen gegenüber bestehenden Techniken und zeigen eine starke Verallgemeinerungsfähigkeit über verschiedene Szenarien hinweg. Projektseite und Online-Demo sind verfügbar unter: https://3d-models.hunyuan.tencent.com/world/ und https://3d.hunyuan.tencent.com/sceneTo3D.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.