Zero-shot Transfer Learningのための統合スケーリング

私たちは、ラベル付きImageNetの例を使用せずにImageNet ILSVRC-2012検証セットで85.7%のトップ1精度を達成する結合スケーリング手法、BASICを提案します。この精度は、CLIPやALIGNなどの既存の類似モデルを9.3%上回っています。また、BASICモデルは堅牢性ベンチマークでも大幅な改善を示しています。例えば、ImageNet-{A,R,V2,Sketch}やObjectNetなど、自然な分布シフトを持つ5つのテストセットにおいて、当社のモデルはトップ1平均精度が84.3%に達しており、元のImageNet精度からの低下は僅かです。これらの結果を得るためには、CLIPとALIGNのコントラスティブ学習フレームワークをデータサイズ、モデルサイズ、バッチサイズという3つの次元で拡大しました。私たちのデータセットには66億組のノイジーな画像-テキストペアが含まれており、これはALIGNよりも4倍大きく、CLIPよりも16倍大きいです。最大のモデルは30億個のパラメータを持ち、これはALIGNとCLIPよりもパラメータ数で3.75倍多く、FLOPsで8倍大きいです。最後に、バッチサイズは65536であり、これはCLIPよりも2倍大きく、ALIGNよりも4倍大きいです。BASICの結合スケーリングルールを実装する上で主に2つの課題に直面しました。まず、BASICの結合スケーリングルールを実装する際の主要な課題はGPUやTPUなどのアクセラレーターの限られたメモリです。このメモリ制限に対処するために、勾配チェックポイントとモデル並列化を利用した2つの単純な方法を提案します。次に、データセットサイズとモデルサイズを増加させることが深層学習モデル(BASICのような)の性能向上における事実上の方法となっていますが、大規模なコントラスティブバッチサイズがこのようなコントラスティブ訓練された画像-テキストモデルに及ぼす影響については十分に理解されていませんでした。大規模なコントラスティブバッチサイズが持つ利点について明確にするために、理論的な枠組みを開発し、その結果より大きなコントラスティブバッチサイズがBASICのような画像-テキストモデルにおける一般化ギャップ縮小につながることを示しました。