17 天前

情境感知在3D视觉语言推理中至关重要

Yunze Man, Liang-Yan Gui, Yu-Xiong Wang
情境感知在3D视觉语言推理中至关重要
摘要

能够在三维空间中完成复杂的视觉-语言推理任务,标志着家用机器人与以人为中心的具身人工智能发展的重要里程碑。本文表明,三维视觉-语言推理面临的一个关键且独特的挑战是情境意识(situational awareness),该能力包含两个核心要素:(1)自主智能体能够根据语言提示定位自身在环境中的位置;(2)智能体能够基于其计算出的位置,从该视角回答开放式问题。为应对这一挑战,我们提出SIG3D——一种端到端的、基于情境的三维视觉-语言推理模型。该模型将三维场景离散化为稀疏体素(sparse voxel)表示,并引入一种语言引导的情境估计器,随后结合情境化问答模块。在SQA3D与ScanQA数据集上的实验结果表明,SIG3D在情境估计与问答任务中显著优于当前最先进的模型(例如,情境估计准确率提升超过30%)。后续分析进一步验证了我们架构设计的合理性,深入探讨了视觉与文本令牌在模型中的不同功能,并强调了情境意识在三维问答任务中的关键作用。