HyperAIHyperAI

Command Palette

Search for a command to run...

潜在的陰在視覚的推論

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Abstract

大規模マルチモーダルモデル(LMMs)は著しい進展を遂げているものの、依然としてテキスト中心のアプローチに依存しており、推論の主要なモダリティとして言語を用いている。その結果、視覚的な要素が主となる推論タスクに対応する能力に限界がある。近年のアプローチでは、補助的な画像、深度マップ、または画像の切り出しを用いて中間段階の視覚的ステップを監督することで、この課題に取り組んできた。しかし、こうした手法は「有用な」視覚的抽象化の形に制約された事前知識(restrictive priors)を強いる一方で、高コストのアノテーションを伴い、タスク間での汎化性も乏しい。この重要な制約を克服するため、我々はタスクに依存しないメカニズムを提案する。このメカニズムは、LMMが明示的な監督なしに視覚的推論トークンを発見・利用できるように訓練する。これらのトークンはグローバルに注目し、タスクに応じて画像を再エンコードするため、手動で設計された監督なしに、関連する視覚的情報を効果的に抽出可能となる。本手法は直接的なファインチューニングを上回り、中間段階の抽象化を明示的に定義することが困難な視覚中心のタスクを含む多様なタスクにおいて、最先端の性能を達成した。さらに、マルチタスクのインストラクションチューニングにも良好に汎化することを確認した。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
潜在的陰在視覚的推論 | Papers | HyperAI超神経