PlayerOne:以自我为中心的世界模拟器
Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao
发布日期: 6/12/2025

摘要
我们介绍了一款名为PlayerOne的第一人称真实世界模拟器,该模拟器支持用户在生动动态的环境中进行沉浸式和无限制的探索。通过用户提供的一张第一人称场景图像,PlayerOne能够准确构建相应的世界,并生成严格与用户的真实场景动作(由第三方视角相机捕捉)对齐的第一人称视频。PlayerOne采用了一个从粗到细的训练流程,首先在大规模的第一人称文本-视频对上进行预训练,以获得粗略级别的第一人称理解能力;随后利用我们自动构建管道从第一人称-第三人称视频数据集中提取同步运动-视频数据进行微调。此外,考虑到不同组件的重要性各异,我们设计了一种部分解耦的动作注入方案,实现了对局部动作的精确控制。我们还提出了一种联合重建框架,逐步建模4D场景和视频帧,确保长视频生成中的场景一致性。实验结果表明,PlayerOne在精确控制各种人体动作以及多样场景的世界一致性建模方面具有出色的泛化能力。这是首次尝试第一人称真实世界模拟,并为社区深入探索世界建模的新前沿及其多样化应用铺平了道路。