
要約
我々は、言語-画像事前学習(SigLIP)に向けたシンプルなペアワイズシグモイド損失を提案する。従来のソフトマックス正規化を用いた対照学習とは異なり、シグモイド損失は画像-テキストペアにのみ作用し、正規化のためにペアワイズ類似度のグローバルな視点を必要としない。この損失関数は、バッチサイズの拡大をさらに可能にするとともに、小さなバッチサイズでも優れた性能を発揮する。ロックド・イメージ・チューニングと組み合わせることで、たった4つのTPUv4チップを使用して2日間で、ImageNet上でゼロショット精度84.5%を達成するSigLiTモデルを学習した。バッチサイズと損失関数の分離により、例(サンプル)とペアの影響、およびネガティブ対ポジティブの比率がモデル性能に与える影響を詳細に分析できるようになった。さらに、バッチサイズを極限まで拡大(最大100万)した結果、バッチサイズの増大による利点は急速に飽和し、32,000程度のより現実的なバッチサイズで十分であることが明らかになった。本研究で開発したモデルは、https://github.com/google-research/big_vision にて公開する。本研究が、言語-画像事前学習の品質および効率の向上に向けたさらなる探求を促進することを期待している。