TesserAct:学习 4D 具身世界模型
Haoyu Zhen, Qiao Sun, Hongxin Zhang, Junyan Li, Siyuan Zhou, Yilun Du, Chuang Gan
发布日期: 4/30/2025

摘要
本文提出了一种学习新型四维具身世界模型的有效方法,该模型能够预测三维场景随具身智能体动作的动态演变,并实现空间和时间的一致性。我们提出通过训练 RGB-DN(RGB、深度和法线)视频来学习四维世界模型。这不仅通过将详细的形状、配置和时间变化融入到预测中,超越了传统的二维模型,还能让我们有效地学习具身智能体的精确逆动态模型。具体而言,我们首先利用现成的模型,扩展现有的机器人操作视频数据集,使其包含深度和法线信息。接下来,我们在此带注释的数据集上微调视频生成模型,该模型能够联合预测每一帧的 RGB-DN(RGB、深度和法线)。然后,我们提出一种算法,将生成的 RGB、深度和法线视频直接转换为高质量的四维世界场景。我们的方法确保了从具体场景中进行的 4D 场景预测的时间和空间一致性,实现了具体环境的新颖视图合成,并促进了策略学习,其效果明显优于从以前的基于视频的世界模型中得出的策略学习。