Command Palette
Search for a command to run...
視覚言語モデルを構築する際に重要な要素は何ですか?
視覚言語モデルを構築する際に重要な要素は何ですか?
Hugo Laurençon Léo Tronchon Matthieu Cord Victor Sanh
概要
視覚言語モデル(VLM)への関心は、大規模言語モデルおよび視覚トランスフォーマーの進展に伴い高まっている。この分野についての文献は多数存在するが、VLMの設計に関する重要な意思決定の多くが正当化されていないことに注目している。本研究では、こうした根拠のない意思決定が、モデル性能の向上に寄与する選択肢を特定することを困難にし、分野の進展を阻害していると主張する。この問題に対処するため、事前学習モデル、アーキテクチャの選定、データ、学習手法の各方面で広範な実験を実施した。本研究の成果の集積として、80億パラメータの効率的な基盤型VLM「Idefics2」の開発を達成した。Idefics2は、多様なマルチモーダルベンチマークにおいて、同規模のモデルの中でも最先端の性能を達成しており、しばしばその4倍の規模を持つモデルと同等の性能を示す。本研究では、モデル(ベース型、指示型、チャット型)および学習に用いたデータセットを公開する。