15日前
SQA3D:3次元シーンにおける状況依存型質問応答
Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, Siyuan Huang

要約
我々は、身体化エージェントのシーン理解能力を評価するための新しいタスクを提案する:3Dシーンにおける状況依存質問応答(SQA3D)。SQA3Dは、3Dスキャンなどのシーンコンテキストが与えられた際、テスト対象のエージェントがまずテキストによって記述された3Dシーン内の自らの状況(位置、方向など)を理解し、その後、その状況下での周囲環境を推論し、質問に答えられる能力を要求する。ScanNetから抽出された650のシーンに基づき、6,800件のユニークな状況を核としたデータセットを提供する。これには、20,400件の記述および33,400件の多様な推論質問が含まれており、空間的関係の理解から常識的推論、ナビゲーション、複数ステップ推論に至るまで、知能エージェントが備えるべき広範な推論能力を検証する。SQA3Dは、現在のマルチモーダル、特に3D推論モデルにとって大きな挑戦を課す。最先端の複数のアプローチを評価した結果、最高性能を示した手法でも全体スコアは47.20%にとどまり、一方で初心者レベルのヒト参加者では90.06%の正解率を達成した。本研究は、より強固な状況理解力と推論能力を持つ次世代の身体化AI研究を促進する可能性を秘めていると確信している。