11日前

分割して対比する：未整理データからの自己教師学習

Yonglong Tian, Olivier J. Henaff, Aaron van den Oord

要約

自己教師あり学習は、大量のラベルなしデータを活用する可能性を秘めており、これまでの進展の多くはImageNetのような高品質に整備された事前学習データに限定されてきた。本研究では、YFCCのようなより大規模で、整備度の低い画像データセットから対照学習（contrastive learning）を行う場合の影響を検討し、得られる表現の質に顕著な差が生じることを明らかにした。この整備ギャップの原因として、画像クラスの分布がより多様かつ重い尾部（heavy-tailed）の特徴を持つことにより、学習に適したネガティブサンプルが不足するという仮説を提示する。この仮説を検証するために、対照学習とクラスタリングに基づくハードネガティブサンプル抽出（hard negative mining）を交互に実行する新しいアプローチ「Divide and Contrast（DnC）」を提案する。整備度の低いデータセット上で事前学習を行う場合、DnCは下流タスクにおける自己教師あり学習の性能を大幅に向上させるとともに、整備されたデータセットにおいても現在の最先端技術と競合する性能を維持する。