HyperAI
il y a 14 jours

Modèle de Fondation Mondiale Interactif : Matrix-Game

Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou
Modèle de Fondation Mondiale Interactif : Matrix-Game
Résumé

Nous présentons Matrix-Game, un modèle fondamental d'un monde interactif pour la génération de mondes de jeu contrôlables. Matrix-Game est formé à l'aide d'un pipeline en deux étapes qui commence par une préformation à grande échelle sur des données non étiquetées pour la compréhension de l'environnement, suivie d'une formation sur des données étiquetées par les actions pour la génération de vidéos interactives. Pour soutenir ce processus, nous avons constitué Matrix-Game-MC, un ensemble de données complet de Minecraft comprenant plus de 2 700 heures de vidéos de jeu non étiquetées et plus de 1 000 heures de clips vidéo de haute qualité étiquetés avec des annotations détaillées des actions clavier et souris. Notre modèle adopte un paradigme de génération d'image vers monde contrôlable, conditionné par une image de référence, un contexte de mouvement et les actions utilisateur. Avec plus de 17 milliards de paramètres, Matrix-Game permet un contrôle précis sur les actions des personnages et les mouvements caméra tout en maintenant une haute qualité visuelle et une cohérence temporelle. Pour évaluer les performances, nous avons développé le GameWorld Score, un benchmark unifié mesurant la qualité visuelle, la qualité temporelle, la contrôlabilité des actions et la compréhension des règles physiques pour la génération du monde Minecraft. Des expériences approfondies montrent que Matrix-Game dépasse constamment les modèles précédents open source du monde Minecraft (y compris Oasis et MineWorld) dans tous les indicateurs, avec des gains particulièrement importants en termes de contrôlabilité et de cohérence physique. Les évaluations humaines en double aveugle confirment davantage la supériorité de Matrix-Game, soulignant sa capacité à générer des vidéos perçues comme réalistes et parfaitement contrôlables dans divers scénarios de jeu. Pour faciliter les futures recherches sur la génération interactive d'image vers monde, nous mettrons à disposition les poids du modèle Matrix-Game ainsi que le benchmark GameWorld Score sous licence open source sur https://github.com/SkyworkAI/Matrix-Game.