HyperAI
il y a 8 jours

Yume : Un modèle de génération de monde interactif

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
Yume : Un modèle de génération de monde interactif
Résumé

Yume vise à utiliser des images, du texte ou des vidéos pour créer un monde interactif, réaliste et dynamique, permettant d'explorer et de contrôler ce monde à l'aide d'appareils périphériques ou de signaux neuronaux. Dans ce rapport, nous présentons une version bêta de \method, qui génère un monde dynamique à partir d'une image d'entrée et permet d'explorer ce monde à l'aide d'actions au clavier. Pour réaliser cette génération de monde vidéo haute fidélité et interactive, nous introduisons un cadre bien conçu, composé de quatre composants principaux : la quantification du mouvement de la caméra, l'architecture de génération vidéo, un échantillonneur avancé, et une accélération du modèle. Tout d'abord, nous quantifions les mouvements de la caméra afin d'assurer une entraînement stable et une interaction conviviale via les entrées au clavier. Ensuite, nous introduisons le Masked Video Diffusion Transformer (MVDT) avec un module de mémoire, permettant une génération vidéo infinie de manière autoregressive. Par la suite, un mécanisme Anti-Artifact sans entraînement (Training-free Anti-Artifact Mechanism, AAM) et un échantillonnage basé sur le Voyage dans le Temps (Time Travel Sampling) fondé sur des Équations Différentielles Stochastiques (TTS-SDE) sont intégrés à l'échantillonneur afin d'améliorer la qualité visuelle et d'obtenir un contrôle plus précis. En outre, nous étudions l'accélération du modèle par une optimisation synergique de la distillation adversariale et des mécanismes de mise en cache. Nous utilisons le jeu de données \sekai pour entraîner \method, et celui-ci obtient des résultats remarquables dans divers scénarios et applications. Tous les données, le code et les poids du modèle sont disponibles sur https://github.com/stdstu12/YUME. Yume sera mis à jour mensuellement pour atteindre son objectif initial. Page du projet : https://stdstu12.github.io/YUME-Project/.