2ヶ月前

ScanQA: 3D シーン理解のための空間質問応答

Azuma, Daichi ; Miyanishi, Taiki ; Kurita, Shuhei ; Kawanabe, Motoaki
ScanQA: 3D シーン理解のための空間質問応答
要約

私たちは新しい3次元空間理解タスクである3次元質問応答(3D-QA)を提案します。3D-QAタスクでは、モデルは豊富なRGB-D室内スキャンの全体的な3次元シーンから視覚情報を取得し、与えられた文章による質問に答えます。VQAの2次元質問応答とは異なり、従来の2D-QAモデルは物体の配置や方向に関する空間理解の問題に直面しており、テキスト質問からの物体識別に失敗することがあります。私たちは3D-QA用のベースラインモデルとしてScanQAモデルを提案します。このモデルは、3次元物体提案とエンコードされた文ベクトルから融合した記述子を学習します。この学習された記述子は言語表現と3次元スキャンの基盤となる幾何学的特徴を関連付け、テキスト質問で指定された物体を特定するための3次元バウンディングボックスの回帰を容易にし、正しい回答を出力します。私たちは各3次元シーンにおける3次元物体に根ざした自由形式の回答を持つ人間編集済みの質問回答ペアを集めました。私たちが新しく作成したScanQAデータセットには、ScanNetデータセットから抽出された800の室内シーンから4万件以上の質問回答ペアが含まれています。当該研究において提案される3D-QAタスクは、据え置き型物体に基づく質問応答を行う最初の大規模な試みであると認識されています。

ScanQA: 3D シーン理解のための空間質問応答 | 最新論文 | HyperAI超神経