SPHINX: 多モーダル大規模言語モデルにおける重み、タスク、および視覚埋め込みの統合混在

私たちはSPHINXを提案します。これは、モデルの重み、調整タスク、および視覚的な埋め込みを統合した多様なモーダルに対応する大規模言語モデル(MLLM)です。まず、より強固な視覚-言語の整合性を実現するために、事前学習中に大規模言語モデル(LLM)の凍結を解除し、実世界データと合成データで訓練されたLLM間での重み混合戦略を導入しました。2つの領域からの重みを直接統合することで、混合LLMは効率的に多様な意味論を取り入れ、適切な堅牢性を持つことができます。次に、多目的機能を可能にするために、共同視覚指示調整のために様々なタスクを混合し、タスク間の衝突を避けるためのタスク固有の指示設計を行いました。基本的な視覚的な質問応答だけでなく、領域レベルの理解、キャプション接地、ドキュメントレイアウト検出、ヒューマンポーズ推定などのより困難なタスクも含まれており、異なるシナリオにおける相互補完に貢献しています。さらに、様々なネットワークアーキテクチャ、事前学習パラダイム、情報粒度から包括的な視覚的な埋め込みを抽出することを提案しました。これにより言語モデルはより堅牢な画像表現を得ることができます。私たちが提案する統合混合に基づき、SPHINXは幅広いアプリケーションにおいて優れた多様なモーダル理解能力を示しています。また、高解像度画像の微細な外観特性をよりよく捉えるための効率的な戦略も提案しており、異なるスケールと高解像度部分画像の混合によって既存の評価ベンチマークで卓越した視覚解析および推論性能が得られています。私たちは本研究が将来のMLLM研究における統合混合探索の一助となることを期待しています。コードはhttps://github.com/Alpha-VLLM/LLaMA2-Accessory で公開されています。