概要

ニューラルネットワークのスケーリングは、幅広いタスクにおいて著しい性能向上をもたらしています。さらに、学習データセットのサイズ、モデルのサイズ、および計算量の関数として、性能は信頼性のあるスケーリング則に従うことが多く、大規模な実験がますます高価になる中で貴重な指針となっています。しかし、これまでのスケーリング則に関する研究では主にプライベートデータやモデルが使用されており、または単一モーダルの言語または視覚学習に焦点を当てていました。これらの制限に対処するため、我々は公開されたLAIONデータセットとオープンソースのOpenCLIPリポジトリを使用して、コントラスティブ言語-画像事前学習（CLIP）におけるスケーリング則を調査しました。我々の大規模実験では最大20億組の画像-テキストペアで学習したモデルを対象とし、ゼロショット分類、検索、線形プロービング、エンドツーエンドファインチューニングなどの複数のダウンストリームタスクにおける冪乗則スケーリングを特定しました。結果として、学習分布がスケーリング則において重要な役割を果たしていることが明らかになりました。同一のモデルアーキテクチャと類似した学習レシピを持つにもかかわらず、OpenAIとOpenCLIPのモデルは異なるスケーリング特性を示しました。我々は再現性を確保し、スケーリング則研究へのアクセスを容易にするために評価ワークフローとすべてのモデル（最大公開済みCLIPモデルを含む）を開発元公開します。本研究を再現するためのソースコードと手順は、https://github.com/LAION-AI/scaling-laws-openclip で提供されます。

ソースPDF コードを表示