Command Palette
Search for a command to run...
PaLI-3 視覚言語モデル:小さく、速く、強力に
PaLI-3 視覚言語モデル:小さく、速く、強力に
Xi Chen∗, Xiao Wang∗, Lucas Beyer∗, Alexander Kolesnikov∗, Jialin Wu1, Paul Voigtländer1, Basil Mustafa2, Sebastian Goodman1, Ibrahim Alabdulmohsin2, Piotr Padlewski2, Daniel Salz1, Xi Xiong3, Daniel Vlasic3, Filip Pavetic2, Keran Rong2, Tianli Yu3, Daniel Keysers2, Xiaohua Zhai†, Radu Soricut†
概要
本論文では、PaLI-3というより小さく、より速く、そしてより強力なビジョン言語モデル(VLM)を紹介します。このモデルは、類似する10倍以上の規模のモデルと比較しても優れた性能を発揮します。強力な性能を得るための過程において、分類目的を使用して事前学習されたビジョントランスフォーマー(ViT)モデルと、対照的に事前学習された(SigLIP)モデルを比較しました。その結果、標準的な画像分類ベンチマークでは若干劣るものの、PaLIのSigLIPベースのモデルは様々なマルチモーダルベンチマークで優れた性能を示し、特に位置情報の特定や視覚的な文脈に基づいたテキスト理解において顕著な成果が得られました。SigLIP画像エンコーダーを20億パラメータまで拡大し、多言語クロスモーダル検索において新たな最先端の成果を達成しました。50億パラメータという小規模なPaLI-3が、複雑なVLMの基本構成要素に関する研究を再燃させ、新しい世代の拡大モデルを開発する原動力となることを期待しています。