WorldPlay : Vers une cohérence géométrique à long terme pour la modélisation mondiales interactive en temps réel
WorldPlay : Vers une cohérence géométrique à long terme pour la modélisation mondiales interactive en temps réel
Wenqiang Sun Haiyu Zhang Haoyuan Wang Junta Wu Zehan Wang Zhenwei Wang Yunhong Wang Jun Zhang Tengfei Wang Chunchao Guo
Abstract
Cet article présente WorldPlay, un modèle de diffusion vidéo en flux continu qui permet une modélisation interactive en temps réel du monde avec une cohérence géométrique à long terme, résolvant ainsi le compromis entre vitesse et mémoire qui limite les méthodes actuelles. WorldPlay tire sa puissance de trois innovations clés. 1) Nous utilisons une représentation d’action double (Dual Action Representation) pour assurer un contrôle robuste des actions en réponse aux entrées clavier et souris de l’utilisateur. 2) Pour assurer une cohérence à long terme, notre mémoire de contexte reconstituée (Reconstituted Context Memory) reconstruit dynamiquement le contexte à partir des trames passées et emploie une reformulation temporelle afin de maintenir accessibles les trames géométriquement importantes, même si elles datent, atténuant efficacement l’affaiblissement de la mémoire. 3) Nous proposons également une méthode originale de distillation appelée Forçage de contexte (Context Forcing), spécifiquement conçue pour les modèles sensibles à la mémoire. En alignant le contexte mémoire entre le modèle enseignant et le modèle apprenant, cette approche préserve la capacité de ce dernier à exploiter des informations à longue portée, permettant des vitesses en temps réel tout en évitant le dérive d’erreurs. Dans leur ensemble, ces composants permettent à WorldPlay de générer des vidéos en continu de longue durée à 720p et 24 FPS, avec une cohérence supérieure, se distinguant favorablement des techniques existantes et démontrant une forte généralisation sur une variété de scènes. La page du projet et une démonstration en ligne sont disponibles à l’adresse suivante : https://3d-models.hunyuan.tencent.com/world/ et https://3d.hunyuan.tencent.com/sceneTo3D.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.