6 个月前

机器视觉 3D

Xiaojian Ma Silong Yong Zilong Zheng Qing Li Yitao Liang Song-Chun Zhu Siyuan Huang

摘要

我们提出了一项新的任务，用于评估具身智能体的场景理解能力：三维场景中的情境化问答（Situated Question Answering in 3D Scenes, SQA3D）。该任务要求被测智能体首先根据文本描述，理解自身在三维场景中的具体情境（如位置、朝向等），进而基于所处环境进行推理，并回答相关问题。基于ScanNet数据集中的650个场景，我们构建了一个包含6,800个独特情境的数据集，配套提供20,400条场景描述和33,400个多样化推理问题。这些问题涵盖了智能体所需具备的广泛推理能力，从空间关系理解、常识推理、导航决策到多跳推理等多个层面。SQA3D对当前主流的多模态，尤其是三维场景推理模型构成了严峻挑战。我们在多种前沿方法上进行了评估，发现表现最佳的模型整体准确率仅为47.20%，而普通人类参与者在该任务中的准确率可达90.06%。我们相信，SQA3D将有力推动未来具身人工智能研究的发展，促进智能体在情境理解与高级推理能力方面的显著提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

机器视觉 3D

Xiaojian Ma Silong Yong Zilong Zheng Qing Li Yitao Liang Song-Chun Zhu Siyuan Huang

摘要

我们提出了一项新的任务，用于评估具身智能体的场景理解能力：三维场景中的情境化问答（Situated Question Answering in 3D Scenes, SQA3D）。该任务要求被测智能体首先根据文本描述，理解自身在三维场景中的具体情境（如位置、朝向等），进而基于所处环境进行推理，并回答相关问题。基于ScanNet数据集中的650个场景，我们构建了一个包含6,800个独特情境的数据集，配套提供20,400条场景描述和33,400个多样化推理问题。这些问题涵盖了智能体所需具备的广泛推理能力，从空间关系理解、常识推理、导航决策到多跳推理等多个层面。SQA3D对当前主流的多模态，尤其是三维场景推理模型构成了严峻挑战。我们在多种前沿方法上进行了评估，发现表现最佳的模型整体准确率仅为47.20%，而普通人类参与者在该任务中的准确率可达90.06%。我们相信，SQA3D将有力推动未来具身人工智能研究的发展，促进智能体在情境理解与高级推理能力方面的显著提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供