HyperAIHyperAI

Command Palette

Search for a command to run...

視覚言語モデルを構築する際に重要な要素は何ですか?

Hugo Laurençon Léo Tronchon Matthieu Cord Victor Sanh

概要

視覚言語モデル(VLM)への関心は、大規模言語モデルおよび視覚トランスフォーマーの進展に伴い高まっている。この分野についての文献は多数存在するが、VLMの設計に関する重要な意思決定の多くが正当化されていないことに注目している。本研究では、こうした根拠のない意思決定が、モデル性能の向上に寄与する選択肢を特定することを困難にし、分野の進展を阻害していると主張する。この問題に対処するため、事前学習モデル、アーキテクチャの選定、データ、学習手法の各方面で広範な実験を実施した。本研究の成果の集積として、80億パラメータの効率的な基盤型VLM「Idefics2」の開発を達成した。Idefics2は、多様なマルチモーダルベンチマークにおいて、同規模のモデルの中でも最先端の性能を達成しており、しばしばその4倍の規模を持つモデルと同等の性能を示す。本研究では、モデル(ベース型、指示型、チャット型)および学習に用いたデータセットを公開する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています