2ヶ月前

認知パラダイムアプローチを用いたVLMにおける知覚-推論インターフェースの探究

Vaishnav, Mohit ; Tammet, Tanel
認知パラダイムアプローチを用いたVLMにおける知覚-推論インターフェースの探究
要約

人工知能における基本的な課題の一つは、Vision-Language Models (VLMs) などの洗練されたモデルにおける視覚的推論の認知メカニズムを理解することである。これらのモデルが、複数の画像間での推論や細かい合成的理解を必要とする場合に、視覚認識と抽象的な思考をどのように統合するのかは特に重要な問題である。認知科学から着想を得て、本論文では Bongard Problems (BPs) および Winoground を用いた多様な視覚的推論タスクを使用して VLMs の認識-推論インターフェースを解剖するための構造化評価フレームワークを提案する。私たちは、人間の問題解決戦略に準じた3つの異なる評価パラダイムを提唱する:Direct Visual Rule Learning (DVRL; 総合的な処理)、Deductive Rule Learning (DRL; 規則抽出と適用)、および Componential Analysis (CA; タスク非依存的なテキスト記述による分析的分解)。これらのパラダイムは認知負荷を系統的に変動させ、処理段階を探求するものである。特に CA は、単一画像アーキテクチャでも複数画像の推論評価が可能となり、テキスト記述に基づいて推論と認識を分離できる。このフレームワークを適用することで、強力な言語モデルを利用して豊富で独立生成された記述に対する推論を行う CA が Bongard-OpenWorld, Bongard-HOI, および Winoground などの難易度の高いベンチマークにおいて新たな最先端 (SOTA) の性能を達成することが示された。削除実験により、認識上の課題が軽減されると推論性能が大幅に向上することが確認され、重要な認識ボトルネックが明らかになった。私たちのフレームワークは貴重な診断ツールとして機能し、認識(豊富なタスク非依存的な記述を通じて)と推論を分離することが堅牢で汎用的な視覚的知能への有望な方向性であることを示唆している。

認知パラダイムアプローチを用いたVLMにおける知覚-推論インターフェースの探究 | 最新論文 | HyperAI超神経