Command Palette
Search for a command to run...
Mohsen Gholami Ahmad Rezaei Zhou Weimin Yong Zhang Mohammad Akbari

要約
3次元空間的関係性の理解は、現在の視覚言語モデル(VLMs)における主要な限界の一つである。従来の研究では、単一の画像や屋内動画に基づいて空間的質問応答(QA)データセットを構築することでこの課題に取り組んできた。しかし、ロボットや自動運転車など現実世界におけるエンベデッドAIエージェントは、通常、エゴセントリック(自立視点)かつ多視点の観測に依存している。このような状況を踏まえ、本研究では、エゴセントリックで多視点の屋外データを用いてVLMの空間的推論能力を評価することを目的とした新規ベンチマーク「Ego3D-Bench」を提案する。Ego3D-Benchは、人間のアノテーターの広範な関与を経て構築された8,600件以上のQAペアを含み、品質と多様性を確保している。本研究では、GPT-4o、Gemini 1.5-Pro、InternVL3、Qwen2.5-VLを含む16種類の最先端VLMを評価した。その結果、人間の水準とVLMの性能の間に顕著な差が確認され、現行のVLMは人間レベルの空間理解にまだ到達していないことが示された。このギャップを埋めるため、本研究ではVLMの3次元空間的推論能力を強化するための後処理フレームワーク「Ego3D-VLM」を提案する。Ego3D-VLMは、推定された全空間3次元座標に基づいて認知地図を生成し、複数選択型QAにおいて平均12%、絶対距離推定において平均56%の性能向上を達成した。Ego3D-VLMはモジュール構造を採用しており、既存のあらゆるVLMと統合可能である。Ego3D-BenchとEgo3D-VLMの併用により、現実世界における多視点環境での人間レベルの空間理解の実現に向けた有効なツールが提供される。