15 天前

SQA3D:三维场景中的情境化问答

Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, Siyuan Huang
SQA3D:三维场景中的情境化问答
摘要

我们提出了一项新的任务,用于评估具身智能体的场景理解能力:三维场景中的情境化问答(Situated Question Answering in 3D Scenes, SQA3D)。该任务要求被测智能体首先根据文本描述,理解自身在三维场景中的具体情境(如位置、朝向等),进而基于所处环境进行推理,并回答相关问题。基于ScanNet数据集中的650个场景,我们构建了一个包含6,800个独特情境的数据集,配套提供20,400条场景描述和33,400个多样化推理问题。这些问题涵盖了智能体所需具备的广泛推理能力,从空间关系理解、常识推理、导航决策到多跳推理等多个层面。SQA3D对当前主流的多模态,尤其是三维场景推理模型构成了严峻挑战。我们在多种前沿方法上进行了评估,发现表现最佳的模型整体准确率仅为47.20%,而普通人类参与者在该任务中的准确率可达90.06%。我们相信,SQA3D将有力推动未来具身人工智能研究的发展,促进智能体在情境理解与高级推理能力方面的显著提升。