10日前
長尾画像分類の再検討:サーベイと新たな評価指標を用いたベンチマーク
Chaowei Fang, Dingwen Zhang, Wen Zheng, Xue Li, Le Yang, Lechao Cheng, Junwei Han

要約
近年、多くの現実世界の状況においてデータ分布が長尾型を示すことに鑑み、長尾画像分類に関する研究への注目が高まっている。データの不均衡問題に対処するために、頻度の低いクラスに偏向するように学習プロセスを調整するアルゴリズムが多数提案されている。しかし、これらの手法は通常、バランスの取れたテストデータセット、または学習データとは異なる分布を持つ複数の独立したテストセット上で性能を評価している。実際のテストデータは任意の分布を有する可能性があることを考慮すると、従来の評価戦略は実際の分類性能を客観的に反映できていない。本研究では、分布が進化する一連のテストセットに基づいて、新たな評価ベンチマークを構築した。さらに、長尾分布に基づく学習におけるアルゴリズムの精度、ロバスト性、限界を測定するためのメトリクス群を体系的に設計した。本ベンチマークを用いて、CIFAR10およびCIFAR100データセット上で既存手法の性能を再評価した。これは、データ再バランス手法の選定を支援する上で極めて価値ある知見を提供する。また、既存手法を学習パイプラインにおける焦点となる処理プロセスに応じて、データバランス化、特徴バランス化、損失バランス化、予測バランス化の4つのカテゴリに再分類した。