HyperAI超神经

MineWorld:在《我的世界》中构建的实时开源交互式世界模型

Junliang Guo, Yang Ye, Tianyu He, Haoyu Wu, Yushu Jiang, Tim Pearce, Jiang Bian
发布日期: 4/16/2025
MineWorld:在《我的世界》中构建的实时开源交互式世界模型
摘要

世界建模是使智能体能够有效与人类互动并在动态环境中运行的关键任务。在本研究中,我们提出了MineWorld,这是一种基于《我的世界》(Minecraft)的实时交互式世界模型。《我的世界》是一款开放式的沙盒游戏,已被广泛用作世界建模的通用测试平台。MineWorld由一个视觉-动作自回归Transformer驱动,该模型以配对的游戏场景和相应的动作为输入,生成跟随这些动作的新场景。具体而言,通过使用图像分词器和动作分词器分别将视觉游戏场景和动作转换为离散的token ID,我们将两种ID交错连接起来构成模型输入。然后,模型通过下一token预测进行训练,以同时学习游戏状态的丰富表示以及状态与动作之间的条件关系。在推理阶段,我们开发了一种新颖的并行解码算法,该算法能够同时预测每帧中的空间冗余token,使不同规模的模型能够生成每秒4到7帧,并实现与游戏玩家的实时互动。在评估阶段,我们提出了新的指标来评估生成新场景时不仅视觉质量而且动作跟随能力,这对于一个世界模型来说至关重要。我们的全面评估表明,MineWorld显著优于现有的开源扩散型世界模型。代码和模型已公开发布。