HyperAIHyperAI

Command Palette

Search for a command to run...

視覚指示調整による基準の改善

Haotian Liu Chunyuan Li Yuheng Li Yong Jae Lee

概要

大規模マルチモーダルモデル(LMM)は最近、視覚指示調整において有望な進展を示しています。本稿では、LLaVAの完全結合型視覚言語クロスモーダル接続部が驚くほど強力でデータ効率が高いことを示します。LLaVAに対して単純な変更を加えることで、具体的にはCLIP-ViT-L-336pxを使用しMLP投影を行い、学術タスク向けVQAデータを単純な応答フォーマットプロンプトとともに追加することで、11つのベンチマークにおいて最先端の性能を達成するより強固なベースラインを確立しました。最終的な13Bチェックポイントは公開されているデータのわずか1.2Mを使用しており、単一の8-A100ノード上で約1日でフルトレーニングが完了します。我々はこの研究が最先端のLMM研究へのアクセスをより容易にすることを期待しています。コードとモデルは公開される予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
視覚指示調整による基準の改善 | 記事 | HyperAI超神経