3ヶ月前

CUDA:長尾認識におけるデータ拡張のカリキュラム

Sumyeong Ahn, Jongwoo Ko, Se-Young Yun
CUDA:長尾認識におけるデータ拡張のカリキュラム
要約

現実世界のタスクにおいて、クラス不均衡問題は頻繁に発生する。従来の深層学習アルゴリズムは、不均衡なトレーニングデータセットにおいて性能の低下が知られている。この問題を軽減するため、多数クラスと少数クラスのバランスを取るために、サンプルの再重み付けや再サンプリングに基づく多くのアプローチが提案されてきた。これらの再バランス手法は、少数クラスの影響を強化し、多数クラスの影響を低減することで、モデルの出力に与える影響を調整する。しかし、少数クラスのサンプル数が限られているため、抽出された表現の品質が低下する可能性がある。この制約に対処するため、多数クラスの特徴を活用して少数クラスの表現を強化する手法も開発されている。近年の広範な研究にもかかわらず、どのクラスを増強すべきか、および増強の強度をどのように設定すべきかについての深い分析は行われていない。本研究では、まず増強の度合いとクラスごとの性能の相関関係を調査し、クラス不均衡問題を緩和するためには、各クラスに対して適切な増強度を個別に割り当てる必要があることを明らかにした。この知見を踏まえ、各クラスごとのデータ増強の強度を適切に決定するためのシンプルかつ効率的な新しいカリキュラムを提案する。これをCUDA(CUrriculum of Data Augmentation for long-tailed recognition)と呼ぶ。CUDAは既存の長尾認識手法に容易に統合可能である。さまざまな不均衡データセット(CIFAR-100-LT、ImageNet-LT、iNaturalist 2018)における実験結果から、CUDAが最先端手法と比較して優れた汎化性能を実現できることを示した。

CUDA:長尾認識におけるデータ拡張のカリキュラム | 論文 | HyperAI超神経