2ヶ月前

視覚指示調整による基準の改善

Haotian Liu; Chunyuan Li; Yuheng Li; Yong Jae Lee
視覚指示調整による基準の改善
要約

大規模マルチモーダルモデル(LMM)は最近、視覚指示調整において有望な進展を示しています。本稿では、LLaVAの完全結合型視覚言語クロスモーダル接続部が驚くほど強力でデータ効率が高いことを示します。LLaVAに対して単純な変更を加えることで、具体的にはCLIP-ViT-L-336pxを使用しMLP投影を行い、学術タスク向けVQAデータを単純な応答フォーマットプロンプトとともに追加することで、11つのベンチマークにおいて最先端の性能を達成するより強固なベースラインを確立しました。最終的な13Bチェックポイントは公開されているデータのわずか1.2Mを使用しており、単一の8-A100ノード上で約1日でフルトレーニングが完了します。我々はこの研究が最先端のLMM研究へのアクセスをより容易にすることを期待しています。コードとモデルは公開される予定です。

視覚指示調整による基準の改善 | 最新論文 | HyperAI超神経