
摘要
我们介绍了Matrix-Game,这是一种用于可控游戏世界生成的交互式世界基础模型。Matrix-Game采用两阶段训练管道,首先进行大规模无标签预训练以理解环境,然后进行带有动作标签的训练以生成交互式视频。为了支持这一过程,我们整理了Matrix-Game-MC,这是一个全面的Minecraft数据集,包含超过2,700小时的无标签游戏视频片段和超过1,000小时的高质量带标签片段,这些片段具有详细的键盘和鼠标操作注释。我们的模型采用了基于参考图像、运动上下文和用户操作的可控图像到世界生成范式。Matrix-Game拥有超过170亿个参数,能够实现对角色动作和摄像机移动的精确控制,同时保持高视觉质量和时间连贯性。为了评估性能,我们开发了GameWorld Score(游戏世界评分),这是一个统一的基准测试工具,用于衡量Minecraft世界生成中的视觉质量、时间质量、动作可控制性和物理规则理解。大量实验表明,Matrix-Game在所有指标上均优于先前的开源Minecraft世界模型(包括Oasis和MineWorld),特别是在可控制性和物理一致性方面表现出显著优势。双盲人类评估进一步证实了Matrix-Game的优势,突显了其在各种游戏场景中生成感知真实且精确可控视频的能力。为了促进未来在交互式图像到世界生成领域的研究,我们将开放Matrix-Game模型权重和GameWorld Score基准测试工具的源代码,网址为https://github.com/SkyworkAI/Matrix-Game。