2 个月前
ScanQA:用于空间场景理解的3D问答系统
Azuma, Daichi ; Miyanishi, Taiki ; Kurita, Shuhei ; Kawanabe, Motoaki

摘要
我们提出了一项新的三维空间理解任务——三维问答(3D-QA)。在3D-QA任务中,模型接收来自丰富RGB-D室内扫描的整个三维场景的视觉信息,并回答关于该三维场景的给定文本问题。与视觉问答(VQA)中的二维问答不同,传统的2D-QA模型在物体对齐和方向的空间理解方面存在问题,并且无法从文本问题中识别出3D-QA中的物体。为此,我们提出了一种名为ScanQA的基础模型,该模型从三维物体提案和编码的句子嵌入中学习融合描述符。这种学习到的描述符将语言表达与三维扫描的基本几何特征相关联,有助于回归三维边界框以确定文本问题中描述的物体,并输出正确的答案。我们收集了由人类编辑的问题-答案对,这些问题的答案是自由形式的,并且与每个三维场景中的三维物体相对应。我们的新ScanQA数据集包含来自ScanNet数据集中800个室内场景的超过40,000个问题-答案对。据我们所知,提出的3D-QA任务是首次大规模尝试在三维环境中进行基于物体的问答。