長尾視覚認識のためのバランス型対照学習

現実世界のデータは通常、長尾分布に従う。すなわち、少数の多数派クラスが大部分のデータを占める一方で、多くのマイノリティクラスは限られたサンプル数しか持たない。交差エントロピーを最小化する分類モデルは、こうした尾部クラス(tail classes)の表現と分類に苦労する。不偏な分類器を学習する問題はこれまで十分に研究されてきたが、不均衡なデータを適切に表現するための手法についてはまだ十分に探求されていない。本論文では、不均衡データに対する表現学習に焦点を当てる。近年、教師あり対比学習(Supervised Contrastive Learning, SCL)はバランスの取れたデータ上で有望な性能を示している。しかし、我々の理論的分析により、長尾分布データにおいてSCLは表現学習に理想的な幾何構造である正単体(regular simplex)を形成できず、最適化の挙動が歪むことが明らかになった。この問題を解決し、長尾視覚認識の性能をさらに向上させるために、本研究ではバランス対比学習(Balanced Contrastive Learning, BCL)という新たな損失関数を提案する。SCLと比較して、BCLは以下の2つの改良を導入している:(1) クラス平均化(class-averaging)により、負例クラスの勾配寄与を均等化し、学習の偏りを軽減;(2) クラス補完(class-complement)により、すべてのクラスが各ミニバッチに含まれるようにする。提案するBCLは正単体を形成する条件を満たし、交差エントロピーの最適化を支援する。BCLを搭載した2本のブランチからなるフレームワークは、強力な特徴表現を獲得でき、CIFAR-10-LT、CIFAR-100-LT、ImageNet-LT、iNaturalist2018といった長尾ベンチマークデータセットにおいて、競争力ある性能を達成した。本研究のコードは、https://github.com/FlamieZhu/BCL にて公開されている。