7日前

オブジェクトの局所化を学ぶことで、視覚LLMにおける空間的推論能力が向上する

Kanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed, Michael S. Ryoo, Tsung-Yu Lin

要約

視覚ドメインのタスクにおける大規模言語モデル（LLM）の統合により、視覚言語モデル（V-LLM）が登場し、特に視覚質問応答（VQA）を含む視覚言語タスクにおいて優れた性能を発揮するようになった。しかし、既存のV-LLM（例：BLIP-2、LLaVA）は空間的推論能力および局所化認識能力に欠けるという課題を抱えている。高精度で詳細なテキスト回答を生成する一方で、左と右の位置を区別するような単純なタスクに対しても不十分な性能を示す。本研究では、画像空間座標に基づく指示微調整（instruction fine-tuning）目的関数が、V-LLMに空間的認識能力を注入する可能性を検証する。本研究では、最適な座標表現、データ効率の高い指示微調整目的関数、および擬似データ生成戦略を発見し、それらがV-LLMの空間的認識能力を向上させることを明らかにした。さらに、提案モデルは画像および動画の両領域におけるVQA性能を向上させるとともに、不適切な幻覚（hallucination）を低減し、より適切な文脈に基づくオブジェクト記述を生成する能力を有している。14の異なるデータセットを用いた5つの視覚言語タスクにおける実験により、本研究で提案するフレームワークが明確な性能向上をもたらすことが確認された。