
要約
自己教師あり学習(Self-supervised learning, SSL)は、ラベルなしで学習可能なため、汎用的な視覚表現をスケーラブルに学習する手法として注目されている。しかし、現実世界に存在する大規模なラベルなしデータセットは、しばしば長尾型のラベル分布を示すため、SSLの挙動についてはまだ十分に理解されていない。本研究では、データセットの不均衡状態における自己教師あり学習の特性を体系的に調査した。まず、広範な実験を通じて、既存の自己教師あり表現は、教師あり学習よりもクラス不均衡に対してより高いロバスト性を有していることを明らかにした。特に、ドメイン内および特にドメイン外評価において、サンプルサイズに関わらず、SSLによるバランスあり・不均衡な事前学習間の性能差は、教師あり学習と比べて著しく小さいことが示された。次に、SSLのロバスト性の要因を解明するため、我々は、頻度の高いデータからより豊かな特徴を学習するという仮説を提示した。すなわち、SSLはラベルに依存しないが転移可能な特徴(label-irrelevant-but-transferable features)を学習する可能性があり、これは希少クラスや下流タスクの分類に寄与する。一方、教師あり学習では、頻度の高い例からラベルと無関係な特徴を学ぶ動機が存在しない。この仮説は、簡略化された設定における理論的分析と半合成実験により検証された。最後に、理論的知見を基に、不均衡データセットにおいて自己教師あり表現の品質を一貫して向上させる再重み付け正則化手法を提案した。この手法は、複数の評価基準において効果を発揮し、同じサンプル数でもバランスありと不均衡データセット間の小さな性能差を解消することに成功した。