2ヶ月前

PaLI-3 視覚言語モデル:小さく、速く、強力に

Chen, Xi ; Wang, Xiao ; Beyer, Lucas ; Kolesnikov, Alexander ; Wu, Jialin ; Voigtlaender, Paul ; Mustafa, Basil ; Goodman, Sebastian ; Alabdulmohsin, Ibrahim ; Padlewski, Piotr ; Salz, Daniel ; Xiong, Xi ; Vlasic, Daniel ; Pavetic, Filip ; Rong, Keran ; Yu, Tianli ; Keysers, Daniel ; Zhai, Xiaohua ; Soricut, Radu
PaLI-3 視覚言語モデル:小さく、速く、強力に
要約

本論文では、PaLI-3というより小さく、より速く、そしてより強力なビジョン言語モデル(VLM)を紹介します。このモデルは、類似する10倍以上の規模のモデルと比較しても優れた性能を発揮します。強力な性能を得るための過程において、分類目的を使用して事前学習されたビジョントランスフォーマー(ViT)モデルと、対照的に事前学習された(SigLIP)モデルを比較しました。その結果、標準的な画像分類ベンチマークでは若干劣るものの、PaLIのSigLIPベースのモデルは様々なマルチモーダルベンチマークで優れた性能を示し、特に位置情報の特定や視覚的な文脈に基づいたテキスト理解において顕著な成果が得られました。SigLIP画像エンコーダーを20億パラメータまで拡大し、多言語クロスモーダル検索において新たな最先端の成果を達成しました。50億パラメータという小規模なPaLI-3が、複雑なVLMの基本構成要素に関する研究を再燃させ、新しい世代の拡大モデルを開発する原動力となることを期待しています。

PaLI-3 視覚言語モデル:小さく、速く、強力に | 最新論文 | HyperAI超神経