1ヶ月前

サンプルの効果的数に基づくクラスバランス損失

Yin Cui; Menglin Jia; Tsung-Yi Lin; Yang Song; Serge Belongie

要約

大規模な実世界データセットの急速な増加に伴い、長尾分布（すなわち、一部のクラスがデータの大半を占め、多くのクラスが低頻度である）の問題に対処することが重要となっています。既存の解決策は通常、各クラスの観測数に基づいて再サンプリングや再重み付けなどのクラス再バランス戦略を採用しています。本研究では、サンプル数が増加するにつれて、新たに追加されたデータポイントの追加的な利点が減少すると主張します。私たちは、各サンプルに対して単一点ではなく小さな近傍領域を関連付けることでデータの重複を測定する新しい理論的枠組みを導入します。有効サンプル数はサンプルの体積として定義され、単純な式 $(1-β^{n})/(1-β)$ で計算できます。ここで $n$ はサンプル数、$β\in [0,1)$ はハイパーパラメータです。私たちは各クラスの有効サンプル数を使用して損失を再バランス化するための新しい再重み付けスキームを設計しました。これによりクラス間でバランスの取れた損失が得られます。人工的に誘発した長尾分布を持つCIFARデータセットやImageNet、iNaturalistなどの大規模データセットに対して包括的な実験を行いました。結果は、提案されたクラス間でバランスの取れた損失を使用して訓練されたネットワークが長尾分布を持つデータセットにおいて有意な性能向上を達成できることを示しています。