
要約
3次元空間における複雑な視覚言語推論タスクを実行できる能力は、家庭用ロボットおよび人間中心のエンボディドAI(身体化AI)の開発において、重要なマイルストーンを示すものである。本研究では、3次元視覚言語推論における重要な特徴的な課題として「状況認識(situational awareness)」を提示する。この課題には以下の2つの主要な要素が含まれる:(1)自律エージェントが言語プロンプトに基づいて自らの位置を自己定位する能力、(2)計算された位置からの視点から開かれた形式の質問に答える能力。この課題に対処するため、我々は3次元視覚言語推論向けのエンドツーエンド型「状況自己定位モデル」であるSIG3Dを提案する。本モデルでは、3次元シーンをスパースボクセル表現にトークン化し、言語に根ざした状況推定器を導入した上で、状況に適応した質問応答モジュールを構築している。SQA3DおよびScanQAデータセットにおける実験結果から、SIG3Dは最先端モデルに比べて状況推定および質問応答の性能において大幅な向上を示した(例:状況推定精度において30%以上の向上)。さらに、後続の分析により、本研究のアーキテクチャ設計の妥当性が裏付けられ、視覚的トークンとテキストトークンのそれぞれの特異な役割が明らかにされ、3次元質問応答領域における状況認識の重要性が強調された。