
要約
深層学習は、大規模な人工的に平衡化されたデータセットを用いることで、画像認識において優れた性能を発揮する。しかし、実世界のデータセットは極めてクラス不均衡な分布を示すことが多く、主に2つの課題を引き起こす。一つはクラス間の相対的な不均衡であり、もう一つは中ショット(medium-shot)または少ショット(few-shot)クラスにおけるデータ不足である。本研究では、訓練データセットが極めて不均衡である一方で、テストデータセットは平衡されているという「長尾認識(long-tailed recognition)」の問題に着目する。従来のアプローチであるデータ再サンプリング、コストセンシティブ学習、オンラインハード例マイニング、損失関数の再設計、およびメモリベースのモデリングに依拠する手法とは異なり、多様な分類器の強みを活かす「クラスバランス型エキスパートのアンサンブル」を提案する。本研究で提案するクラスバランス型エキスパートのアンサンブルは、既存の最先端性能に近い結果を達成し、拡張されたアンサンブルは長尾認識の2つのベンチマークにおいて新たな最先端性能を樹立した。広範な実験を通じてアンサンブルの性能を分析した結果、現代の大規模データセットにおいて、データ不足よりも相対的な不均衡がより困難な課題であることが明らかになった。本研究の訓練および評価用コードは、https://github.com/ssfootball04/class-balanced-experts にて公開されている。