Command Palette
Search for a command to run...
Georgios Pantazopoulos Eda B. Özyiğit

要約
視覚的接地(Visual grounding)とは、モデルがテキスト記述と一致する視覚入力内の領域を特定する能力を指す。したがって、視覚的接地機能を備えたモデルは、参照表現の理解、画像や動画における細部に関する質問への回答、視覚的文脈を対象のエンティティを明示的に指す形で説明するキャプション生成、さらにはシミュレート環境および実環境における低レベルおよび高レベルの制御など、多様な分野における幅広い応用が可能となる。本調査論文では、現代の汎用的視覚言語モデル(VLM)に関する研究の主要領域における代表的な成果を概観する。まず、VLMにおける接地の重要性を整理し、次に、接地モデルを構築する現代的なアプローチの核心的構成要素を明らかにした後、実用的応用、特に接地型マルチモーダル生成に関するベンチマークおよび評価指標について検討する。さらに、視覚的接地、マルチモーダル・チェーン・オブ・シンキング(chain-of-thought)、およびVLMにおける推論の複数の側面がどのように相互に関連しているかについても考察する。最後に、視覚的接地に内在する課題を分析し、今後の研究における有望な方向性を提示する。