
要約
視覚的世界は、物体やシーンのインスタンス数に自然な偏りを示しており、これにより「長尾分布(long-tailed distribution)」が生じる。この偏りは、ディープラーニングに基づく分類モデルにとって大きな課題をもたらす。尾部クラス(tail classes)のインスタンスを過剰にサンプリングすることでこの偏りを緩和しようとする試みがあるが、視覚的多様性が限られているため、ネットワークの表現能力が低下するという問題が生じる。この問題に対する単純な対策として、表現ネットワークと分類器ネットワークを分離し、過剰サンプリングを分類器の学習にのみ適用する方法が提案されている。本論文では、同じ画像(およびその特徴量)を繰り返し再サンプリングするのではなく、尾部クラスの分布を推定することで意味のある特徴量を生成するアプローチを検討する。最近の少サンプル学習(few-shot learning)に関する研究から着想を得て、補正された分布(calibrated distributions)を構築し、追加の特徴量をサンプリングする。その後、これらの特徴量を用いて分類器を学習する。CIFAR-100-LT(長尾)データセットおよびmini-ImageNet-LT(長尾)データセットを用いた複数の実験により、本手法の有効性を示し、新たな最先端(state-of-the-art)を確立した。また、t-SNE可視化を用いた生成された特徴量の定性的分析と、尾部クラスの分布を補正するために用いられた最近傍(nearest neighbors)の分析も行っている。本研究のコードは、https://github.com/rahulvigneswaran/TailCalibX にて公開されている。