
摘要
在三维视觉问答(3D VQA)中,完全注释数据的稀缺性和视觉内容多样性的有限性阻碍了对新场景和三维概念(例如,在ScanQA和SQA数据集中仅使用了大约800个场景)的泛化能力。当前的方法通过补充二维信息来增强三维推理,但这些方法面临挑战:要么使用自上而下的二维视图,引入过于复杂且有时与问题无关的视觉线索;要么依赖从二维多模态语言模型(VLMs)中提取的全局聚合场景/图像级表示,导致细粒度的视觉-语言关联丢失。为了解决这些问题,我们的方法采用了基于问题条件的二维视图选择程序,精确定位关键视觉线索相关的语义相关二维输入。然后,我们通过一个双分支Transformer结构将这种二维知识整合到3D-VQA系统中。该结构采用双Transformer设计,紧凑地结合了二维和三维模态,并捕捉了模态之间的细粒度关联,使它们能够相互增强。结合上述提出的机制,我们介绍了BridgeQA,这是一种针对3D-VQA的多模态Transformer架构的新视角。实验验证表明,BridgeQA在3D-VQA数据集上达到了最先进的性能,并显著优于现有解决方案。代码可在此链接获取。