2ヶ月前

視覚指示調整

Liu, Haotian ; Li, Chunyuan ; Wu, Qingyang ; Lee, Yong Jae

要約

機械生成の指示追従データを使用して大規模言語モデル（LLMs）を指示調整することで、新しいタスクにおけるゼロショット能力が向上しましたが、マルチモーダル分野でのこのアイデアはまだ十分に研究されていません。本論文では、言語のみを使用するGPT-4を用いてマルチモーダルな言語-画像指示追従データを生成する最初の試みを紹介します。このような生成されたデータで指示調整を行うことで、我々は LLaVA: 大規模言語とビジョンアシスタントを導入します。これは、ビジョンエンコーダーとLLMを接続し、汎用的な視覚と言語理解を行う大規模なマルチモーダルモデルです。初期実験では、LLaVAが印象的なマルチモーダルチャット能力を示しており、未見の画像/指示に対して時にはマルチモーダル版GPT-4のような挙動を示しています。合成マルチモーダル指示追従データセットにおいて、GPT-4との比較で85.1%の相対スコアを達成しています。Science QAでの微調整により、LLaVAとGPT-4のシナジー効果によって92.53%という新たな最先端の精度が達成されました。我々は、GPT-4によって生成された視覚指示調整データ、当該モデルおよびコードベースを公開します。