HyperAIHyperAI

Command Palette

Search for a command to run...

PaLI-3 視覚言語モデル:小さく、速く、強力に

Xi Chen∗, Xiao Wang∗, Lucas Beyer∗, Alexander Kolesnikov∗, Jialin Wu1, Paul Voigtländer1, Basil Mustafa2, Sebastian Goodman1, Ibrahim Alabdulmohsin2, Piotr Padlewski2, Daniel Salz1, Xi Xiong3, Daniel Vlasic3, Filip Pavetic2, Keran Rong2, Tianli Yu3, Daniel Keysers2, Xiaohua Zhai†, Radu Soricut†

概要

本論文では、PaLI-3というより小さく、より速く、そしてより強力なビジョン言語モデル(VLM)を紹介します。このモデルは、類似する10倍以上の規模のモデルと比較しても優れた性能を発揮します。強力な性能を得るための過程において、分類目的を使用して事前学習されたビジョントランスフォーマー(ViT)モデルと、対照的に事前学習された(SigLIP)モデルを比較しました。その結果、標準的な画像分類ベンチマークでは若干劣るものの、PaLIのSigLIPベースのモデルは様々なマルチモーダルベンチマークで優れた性能を示し、特に位置情報の特定や視覚的な文脈に基づいたテキスト理解において顕著な成果が得られました。SigLIP画像エンコーダーを20億パラメータまで拡大し、多言語クロスモーダル検索において新たな最先端の成果を達成しました。50億パラメータという小規模なPaLI-3が、複雑なVLMの基本構成要素に関する研究を再燃させ、新しい世代の拡大モデルを開発する原動力となることを期待しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています