2ヶ月前

2Dと3Dの視覚的質問応答のギャップを埋める：3D VQAのための融合アプローチ

Mo, Wentao ; Liu, Yang

要約

3次元視覚質問応答（3D VQA）において、完全にアノテーションされたデータの不足と視覚コンテンツの多様性の制限が、新しいシーンや3D概念（例えば、ScanQAおよびSQAデータセットでは約800のシーンしか使用されていない）への汎化を妨げている。現行の手法は、2D情報によって3D推論を補完しているが、これらの方法には課題がある。すなわち、上から下への2Dビューを使用することで過度に複雑で時には質問に関連しない視覚的な手がかりが導入されるか、または2D VLMsからの全体的に集約されたシーン/画像レベルの表現に依存し、微細な視覚-言語相関関係が失われる可能性がある。これらの制限を克服するために、当方針では質問条件付き2Dビュー選択プロセスを利用し、重要な視覚的な手がかりに対する意味的に関連する2D入力を特定する。その後、この2D知識を二つのブランチを持つトランスフォーマー構造を通じて3D-VQAシステムに統合する。この構造はツイン・トランスフォーマー設計を特徴とし、2Dと3Dモダリティをコンパクトに組み合わせて微細なモダリティ間相関関係を捉え、相互に補完しあうことを可能にする。以上の提案メカニズムを統合してBridgeQAを提示する。これは3D-VQA向けのマルチモーダルトランスフォーマーに基づくアーキテクチャについて新鮮な視点を提供するものである。実験結果によりBridgeQAは3D-VQAデータセットにおいて最先端の性能を達成し、既存のソリューションに対して大幅に優れていることが確認されている。コードは$\href{https://github.com/matthewdm0816/BridgeQA}{\text{こちら}}$から利用可能である。