HyperAIHyperAI

Command Palette

Search for a command to run...

視覚指示調整

Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee

概要

機械生成の指示追従データを使用して大規模言語モデル(LLMs)を指示調整することで、新しいタスクにおけるゼロショット能力が向上しましたが、マルチモーダル分野でのこのアイデアはまだ十分に研究されていません。本論文では、言語のみを使用するGPT-4を用いてマルチモーダルな言語-画像指示追従データを生成する最初の試みを紹介します。このような生成されたデータで指示調整を行うことで、我々は LLaVA: 大規模言語とビジョンアシスタントを導入します。これは、ビジョンエンコーダーとLLMを接続し、汎用的な視覚と言語理解を行う大規模なマルチモーダルモデルです。初期実験では、LLaVAが印象的なマルチモーダルチャット能力を示しており、未見の画像/指示に対して時にはマルチモーダル版GPT-4のような挙動を示しています。合成マルチモーダル指示追従データセットにおいて、GPT-4との比較で85.1%の相対スコアを達成しています。Science QAでの微調整により、LLaVAとGPT-4のシナジー効果によって92.53%という新たな最先端の精度が達成されました。我々は、GPT-4によって生成された視覚指示調整データ、当該モデルおよびコードベースを公開します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています