HyperAIHyperAI

Command Palette

Search for a command to run...

9ヶ月前

新しい見出し ARGUS: 視覚中心的な推論を実現する言語ガイド付き視覚注意再エンゲージメント 要点 現行の多モーダル大規模言語モデル(MLLMs)は、正確な視覚認識と特定の領域への注目が重要な場合に性能が低下する傾向がある。 ARGUSは、言語で制御された視覚注意メカニズムを提案し、この問題に対処する。 言語ガイド付き視覚注意再エンゲージメントモジュールにより、モデルはテキストプロンプトに関連する画像領域に焦点を当てる。 4つの異なるRoIエンゲージメント戦略を検討し、明確な視覚的なコンテクスト再エンゲージメントが最良の結果をもたらすことを示している。 精度と効率性の両面で優れた性能を発揮し、視覚的な推論とオブジェクトの位置特定タスクで最先端の成果を達成。 この見出しは、ARGUSの主要な特徴と成果を簡潔にまとめ、技術マニアに魅力的な情報を提供しています。また、誇張や誤解を招く表現を避け、事実に基づいています。

ARGUS: Vision-Centric Reasoning with Grounded Chain-of-Thought 既存のマルチモーダル大規模言語モデル(MLLM)は、特定の領域(RoI)の正確な視覚認識と理解が必要な場面でしばしば性能が低下します。ARGUSはこの問題に対処するために、新しい視覚的注意アングリングメカニズムを提案しています。このフレームワークは、認知視覚知能からインスピレーションを受け、刺激駆動型(無意識的)と目標指向型(意識的)視覚注意の区別を取り入れています。 刺激駆動型注意では、事前学習された視覚モデルによって画像トークン化が行われますが、目標指向型注意はLLM内で言語条件付き画像特徴量がエンゲージされます。論文では、言語ガイドによる視覚的なエンゲージメントの影響がまだ十分に研究されていないと指摘しています。 ARGUSでは、テキストプロンプトに関連性が高いRoIを探すために、トップダウンの視覚的サーチを明示的に行います。予測されたバウンディングボックスが画像の該当部分をクロッピングし、モデルにこれらの特定の領域に注目するよう導きます。これにより、後続の推論と回答生成が改善されます。これらのバウンディングボックスは、単純ながら効果的な視覚的チェインオブサウンド(CoT)信号として機能します。 アーキテクチャの設計 視覚エンコーダ: ARGUSは、CLIP45、ConvNeXt46、EVA-02の3つの異なる視覚基盤モデルの出力を組み合わせるMixture-of-Vision-Experts(MoVEs)戦略を採用しています。これらのエンコーダは、画像情報の抽象化を最小限の損失で行い、視覚と言語を適合させる上で重要な役割を果たします。2D埋め込みは補正され、連結され、その後MLPプロジェクターによってテキストトークン空間にマッピングされます。 LLMデコーダ: 先進的な事前学習済みLLM、特にLlama3-8B50が、次のトークン予測のためのトランスフォーマーデコーダとして使用されます。 RoIサンプリング: モデルは、質問プロンプトで言及された領域に対応するバウンディングボックスを予測することができます。これらのバウンディングボックスは正規化された座標([xmin, ymin, xmax, ymax])でテキスト形式で表現され、関連するRoIのクロッピングと再エンゲージメントをガイドします。 方向性の視覚コンテクスト再エンゲージメント 予測されたバウンディングボックスは最も関連性の高い視覚的コンテクストを強調します。ARGUSでは4つの方法でこれらのサンプルされたRoIとのエンゲージメントを探求しています: 1. 暗黙の自己注意: LLMの全体的な自己注意に頼るベースライン方法。具体的なRoIに対する制御が最小限です。 2. 暗黙のボックスガイダンス: 予測されたバウンディングボックスをテキストトークンとして扱い、自己注意をRoIに间接的に導きます。明示的な視覚的再エンゲージメントはありません。 3. 明示的なRoI再エンコーディング: RoIで定義された画像の一部をサンプリングし、視覚エンコーダを通して新しい一連の視覚トークンを生成します。これはコンテクスト固有のシグナルを明示的に導入しますが、計算コストが増大します。 4. 明示的なRoI再サンプリング: 初期エンコーディング段階で取得したビジュアル埋め込みを使用し、RoIバウンディングボックスとの重なりに基づいて再度取り込みます。キャッシュされたトークンを使用することで効率が向上し、位置情報のコンテクストも維持されます。 学習パイプライン 学習は2つの段階にわかれています: 1. アライメントと事前学習: 視覚エンコーダとMLPプロジェクターはLlaVA-595Kデータセットを使用して訓練されます。この段階では視覚エキスパートの事前アライメントも含まれます。 LLMOはこの段階で冻结されます。 2. 教師あり微調整(SFT): ビジョンエンコーダ、MLPプロジェクター、LLMすべてを、多様なデータセットのブレンド(Eagle1.8M、VCoT、GRIT、Shikra)を使用して微調整します。この段階はRoIボックスの予測と視覚的なCoTの利用を可能にします。 使用データセット 事前学習データセット: LlaVA-595K(選別の画像-テキストペア) 微調整データセット: Eagle1.8M(多岐にわたる会話データ)、VCoT(RoIバウンディングボックスアノテーション)、 grounding データセット(GRIT、Shikra) 評価ベンチマーク マルチモーダル推論タスク: ビジョンcenric task、テキスト理解、汎用taskをカバーした diversos ベンチマークでの評価 参照表現グラウディングタスク: RefCOCO、RefCOCO+、RefCOCOgベンチマークでオブジェクトグラウディング能力を評価。 [email protected]が使用されるパフォーマンスメトリック 評価と結果 ビジョン推論: 同じ大きさと学習スケールの公開マルチモーダル言語モデル(MLLM)の中で最高のパフォーマンスを達成。特にビジョンcenric taskとテキスト理解任務での大幅な改善が見られ、目標条件付き視覚サーチと注意メカニズムの有効性が示されました。 参照表現グラウンディング: 一般的なMLLMと比較して優れたパフォーマンスを発揮し、専門家向けグラウンディングモデルと肩を並べる結果となりました。高レベルの推論と精密な視覚的局在化において優れた性能を示しています。 定性的結果: 複雑な推論タスクを視覚的にサポートしながら成功裏にこなす例が示されています。 アブレーションスタディと分析 CoTとグラウンディング: CoT推論の導入によりパフォーマンスが一貫して向上。明示的な視覚的CoT(再エンコーディング/再サンプリング)の方が、暗黙のボックスガイドよりも大きな効果があります。グラウンディングデータセットの追加により、オブジェクトcenric perceptionとバウンディングボックスの予測が改善されました。 再エンゲージメント方法: 明示的な再エンコーディングと再サンプリングは暗黙的方法よりも優れています。再サンプリングはコンテクストの保全が良く、分布のずれが少ないため、一般に優れていますが、微細な詳細が必要なタスク(例:V-Star)では再エンコーディングの方が良い成績を収めます。 エンコーダ容量: 高容量の視覚エンコーダは性能を向上させます。再エンコーディングは最初の特徴量品質に依存しにくく、再サンプリングよりも安定した性能を発揮します。 コンテクスト拡張: 再エンコーディングは多少のRoIコンテクスト拡張(20-40%)によって助かりますが、相対的な位置付けを向上させます。再サンプリングは元のボックスサイズですべて的最佳パフォーマンスを発揮します。過度の拡張は両方の方法においてパフォーマンスを低下させます。 非共有MLPs: 初期的なビジュアルトークンと再エンゲージされたビジュアルトークンに対して異なるMLPsを使用することで、さまざまな画像/RoI分布に最適化され、わずかに再サンプリングのパフォーマンスが改善します。 計算効率: 再サンプリングは再エンコーディングよりも大幅に計算効率が良く、操作が必要な数と追加のビジュアルトークンが少ないため、推論が高速化します。 限界と将来の課題 著者らは、以下のような限界点を認めています: - 大規模なモデルスケールでのアプローチの評価が不足している - 大規模な視覚CoTデータの一貫性と入手可能性に制限がある - オープンワールド検出などのより幅広いタスクへの対応が必要 これらの成果と分析を通じて、ARGUSは視覚的なチェインオブサウンドを基にしたマルチモーダル推論の新境地を拓いていると結論付けることができます。 業界関係者はこのアプローチが、画像とテキストの統合における新たな進展を示しており、多種多様なデータセットで一貫した高性能を発揮すると評価しています。ARGUSの開発に関与した研究者は、高精度の視覚的コンテクストエンゲージメントが、複雑な推論タスクでのモデルのパフォーマンスを大きく向上させると自信を持って述べています。

関連リンク

新しい見出し ARGUS: 視覚中心的な推論を実現する言語ガイド付き視覚注意再エンゲージメント 要点 現行の多モーダル大規模言語モデル(MLLMs)は、正確な視覚認識と特定の領域への注目が重要な場合に性能が低下する傾向がある。 ARGUSは、言語で制御された視覚注意メカニズムを提案し、この問題に対処する。 言語ガイド付き視覚注意再エンゲージメントモジュールにより、モデルはテキストプロンプトに関連する画像領域に焦点を当てる。 4つの異なるRoIエンゲージメント戦略を検討し、明確な視覚的なコンテクスト再エンゲージメントが最良の結果をもたらすことを示している。 精度と効率性の両面で優れた性能を発揮し、視覚的な推論とオブジェクトの位置特定タスクで最先端の成果を達成。 この見出しは、ARGUSの主要な特徴と成果を簡潔にまとめ、技術マニアに魅力的な情報を提供しています。また、誇張や誤解を招く表現を避け、事実に基づいています。 | 人気の記事 | HyperAI超神経