2ヶ月前

視覚言語モデルを構築する際に重要なのは何ですか?

Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh
視覚言語モデルを構築する際に重要なのは何ですか?
要約

視覚言語モデル(Vision-Language Models, VLMs)への関心の高まりは、大規模言語モデルと視覚トランスフォーマーの進歩によって推進されています。この主題に関する文献が豊富であるにもかかわらず、VLMの設計に関する重要な決定がしばしば正当化されていないことが観察されます。私たちは、これらの根拠のない決定がモデル性能を向上させる選択を特定することを難しくし、分野の進展を阻害すると主張します。この問題に対処するために、事前学習済みモデル、アーキテクチャ選択、データ、および学習方法を中心に広範な実験を行いました。得られた知見のまとめには、80億パラメータを持つ効率的な基礎VLMであるIdefics2の開発も含まれています。Idefics2はそのサイズカテゴリー内で様々なマルチモーダルベンチマークにおいて最先端の性能を達成しており、しばしば自らの4倍以上のサイズを持つモデルと同等の性能を示しています。私たちは、ベースモデル、指示付きモデル、チャットモデルに加えて、その学習のために作成されたデータセットも公開します。

視覚言語モデルを構築する際に重要なのは何ですか? | 最新論文 | HyperAI超神経