8 个月前

机器视觉 3D

计算机视觉

计算机视觉

Azuma Daichi ; Miyanishi Taiki ; Kurita Shuhei ; Kawanabe Motoaki

摘要

我们提出了一项新的三维空间理解任务——三维问答（3D-QA）。在3D-QA任务中，模型接收来自丰富RGB-D室内扫描的整个三维场景的视觉信息，并回答关于该三维场景的给定文本问题。与视觉问答（VQA）中的二维问答不同，传统的2D-QA模型在物体对齐和方向的空间理解方面存在问题，并且无法从文本问题中识别出3D-QA中的物体。为此，我们提出了一种名为ScanQA的基础模型，该模型从三维物体提案和编码的句子嵌入中学习融合描述符。这种学习到的描述符将语言表达与三维扫描的基本几何特征相关联，有助于回归三维边界框以确定文本问题中描述的物体，并输出正确的答案。我们收集了由人类编辑的问题-答案对，这些问题的答案是自由形式的，并且与每个三维场景中的三维物体相对应。我们的新ScanQA数据集包含来自ScanNet数据集中800个室内场景的超过40,000个问题-答案对。据我们所知，提出的3D-QA任务是首次大规模尝试在三维环境中进行基于物体的问答。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器视觉 3D

计算机视觉

计算机视觉

Azuma Daichi ; Miyanishi Taiki ; Kurita Shuhei ; Kawanabe Motoaki

摘要

我们提出了一项新的三维空间理解任务——三维问答（3D-QA）。在3D-QA任务中，模型接收来自丰富RGB-D室内扫描的整个三维场景的视觉信息，并回答关于该三维场景的给定文本问题。与视觉问答（VQA）中的二维问答不同，传统的2D-QA模型在物体对齐和方向的空间理解方面存在问题，并且无法从文本问题中识别出3D-QA中的物体。为此，我们提出了一种名为ScanQA的基础模型，该模型从三维物体提案和编码的句子嵌入中学习融合描述符。这种学习到的描述符将语言表达与三维扫描的基本几何特征相关联，有助于回归三维边界框以确定文本问题中描述的物体，并输出正确的答案。我们收集了由人类编辑的问题-答案对，这些问题的答案是自由形式的，并且与每个三维场景中的三维物体相对应。我们的新ScanQA数据集包含来自ScanNet数据集中800个室内场景的超过40,000个问题-答案对。据我们所知，提出的3D-QA任务是首次大规模尝试在三维环境中进行基于物体的问答。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供