
要約
実世界のデータはしばしば長尾分布に従い、少数の主要クラスが大部分のデータを占め、多くの末尾クラスは非常に限られたサンプルしか含まない。実際には、深層モデルはこの不均衡な分布により、末尾クラスでの汎化性能が悪くなることが多い。これを解決するために、新しいサンプルを合成することで末尾クラスにデータ拡張を行う方法が効果的であることが示されている。その中でも特に人気のある方法の一つは、CutMixであり、これは末尾クラスと他のクラスの画像を明示的にミックスアップし、2つの画像から切り取った領域の比率に基づいてラベルを構築する。しかし、面積に基づくラベルは増強されたサンプルの固有の意味情報を完全に無視しており、しばしば誤った学習信号を引き起こす。この問題に対処するために、我々は対照的なCutMix(ConCutMix)を提案する。これにより、意味的に一貫したラベルを持つ増強サンプルを作成し、長尾認識の性能向上を目指す。具体的には、対照学習によって学習された意味空間内のサンプル間の類似度を計算し、それらを使用して面積に基づくラベルを修正する。実験結果によると、我々のConCutMixは末尾クラスにおける精度だけでなく全体的な性能も大幅に向上させることが確認された。例えば、ResNeXt-50を使用してImageNet-LTで全体的な精度を3.0%向上させることができたのは、末尾クラスでの3.3%という大幅な改善のおかげである。また、この改善は他のベンチマークやモデルにも良好に汎化することが強調される。当該コードおよび事前学習済みモデルはhttps://github.com/PanHaulin/ConCutMix で公開されています。