
要約
既存の自己教師付き学習(SSL)手法は、主に人工的にバランスの取れたデータセット(例:ImageNet)から表現モデルを学習するために用いられている。実際の応用場面では、クラスごとのデータ分布がしばしば不均衡であるため、これらの手法がそのような状況下でどの程度の性能を発揮するのかは明らかでない。この疑問に触発され、我々は、学習インスタンスの分布がバランス型からロングテール型まで変化する複数のデータセット上で、自己教師付きコントラスト学習と教師あり学習手法の性能を体系的に調査した。得られた知見は非常に興味深い。教師あり手法では大きな性能低下が見られる一方、自己教師付きコントラスト学習手法は、データセットが重度に不均衡であっても安定した良好な性能を発揮することが明らかになった。この現象に着目し、コントラスト学習によって学習される「バランスの取れた特徴空間」に着目した。この空間では、すべてのクラスに対して特徴表現が類似した線形分離可能性を示すことがわかった。さらなる実験により、バランスの取れた特徴空間を生成する表現モデルは、複数の設定において不均衡な特徴空間を生成するものよりも優れた一般化性能を発揮することが明らかになった。これらの知見を基に、本研究では、教師あり手法とコントラスト学習手法の長所を有効に統合し、判別性とバランス性の両方を備えた表現を学習できる新たな表現学習手法「$k$-positive contrastive learning」を提案した。広範な実験により、複数の認識タスクにおいて優れた性能を示した。特に、挑戦的なロングテール認識ベンチマークにおいて、新たなSOTA(最良の結果)を達成した。コードおよびモデルは公開予定である。