
摘要
近期,先进的视觉-语言模型(VLMs)在被动、离线的图像和视频理解任务中展示了强大的性能。然而,这些模型在具身化场景中的有效性仍然有限,这类场景需要在线互动和动态场景理解。在这样的环境中,智能体以第一人称视角感知周围环境,每个动作都会动态地影响后续的观察结果。即使是像GPT-4o、Claude 3.5 Sonnet和Gemini 2.5 Pro这样最先进的模型,在开放环境中的交互中也表现出明显的空间推理和长期规划能力的局限性。为了解决这一问题,我们引入了EmRACE-3K数据集,该数据集包含超过3,000个位于多样且逼真环境中的语言引导任务,这些环境是使用Unreal Engine和UnrealCV-Zoo框架构建的。这些任务涵盖了广泛的具身化挑战,包括导航、物体操作和多阶段目标执行。每个任务都表现为一个多步骤轨迹,将第一人称视觉观察与高层次指令、具体动作以及表达智能体每一步意图的自然语言解释相结合。利用EmRACE-3K数据集,我们在三个关键维度上建立了基准测试来评估VLMs的具身化推理能力:探索、动态空间-语义推理和多阶段目标执行。在零样本设置下,所有模型的成功率均低于20%,这突显了我们基准测试所提出的挑战以及当前VLMs在交互环境中的局限性。为了展示EmRACE-3K数据集的实用性,我们进一步通过监督学习和强化学习对Qwen2.5-VL-7B进行了微调。这种方法在所有三个挑战类别中均取得了显著改进,突出了该数据集在促进具身化推理能力发展方面的有效性。