1ヶ月前

概要

大規模マルチモーダルモデル（LMMs）は著しい進展を遂げているものの、依然としてテキスト中心のアプローチに依存しており、推論の主要なモダリティとして言語を用いている。その結果、視覚的な要素が主となる推論タスクに対応する能力に限界がある。近年のアプローチでは、補助的な画像、深度マップ、または画像の切り出しを用いて中間段階の視覚的ステップを監督することで、この課題に取り組んできた。しかし、こうした手法は「有用な」視覚的抽象化の形に制約された事前知識（restrictive priors）を強いる一方で、高コストのアノテーションを伴い、タスク間での汎化性も乏しい。この重要な制約を克服するため、我々はタスクに依存しないメカニズムを提案する。このメカニズムは、LMMが明示的な監督なしに視覚的推論トークンを発見・利用できるように訓練する。これらのトークンはグローバルに注目し、タスクに応じて画像を再エンコードするため、手動で設計された監督なしに、関連する視覚的情報を効果的に抽出可能となる。本手法は直接的なファインチューニングを上回り、中間段階の抽象化を明示的に定義することが困難な視覚中心のタスクを含む多様なタスクにおいて、最先端の性能を達成した。さらに、マルチタスクのインストラクションチューニングにも良好に汎化することを確認した。

ソースPDF