Command Palette
Search for a command to run...

摘要
我们介绍了WorldVLA,这是一种自回归动作世界模型,统一了动作理解和生成以及图像理解和生成。WorldVLA在一个单一框架中集成了视觉-语言-动作(VLA)模型和世界模型。该世界模型通过利用动作和图像理解来预测未来的图像,其目的是学习环境的基本物理规律以改进动作生成。同时,动作模型根据图像观察生成后续的动作,辅助视觉理解,并反过来帮助世界模型的视觉生成。我们展示了WorldVLA在性能上优于独立的动作模型和世界模型,突显了世界模型与动作模型之间的相互增强作用。此外,我们发现当以自回归方式生成一系列动作时,动作模型的性能会下降。这种现象可以归因于模型在动作预测方面的泛化能力有限,导致早期动作的误差传播到后续的动作中。为了解决这一问题,我们提出了一种注意力掩码策略,在生成当前动作时选择性地屏蔽先前的动作,这在动作块生成任务中显著提高了性能。
代码仓库
alibaba-damo-academy/worldvla
官方
pytorch
GitHub 中提及