2ヶ月前

ラベル分布に応じたマージン損失を用いた不均衡データセットの学習

Kaidi Cao; Colin Wei; Adrien Gaidon; Nikos Arechiga; Tengyu Ma
ラベル分布に応じたマージン損失を用いた不均衡データセットの学習
要約

深層学習アルゴリズムは、訓練データセットに重いクラス不均衡が存在する場合、テスト基準が頻度の低いクラスでの良い一般化を要求すると、性能が低下することがあります。このようなシナリオでの性能向上のために、私たちは2つの新しい手法を設計しました。まず、理論的に根ざしたラベル分布に基づくマージン(Label-Distribution-Aware Margin: LDAM)損失を提案します。これは、マージンベースの一般化境界を最小化することを目指しており、訓練中に標準的なクロスエントロピー目的関数の代わりに使用できます。また、クラス不均衡に対処するための再重み付けや再サンプリングなどの従来の戦略と組み合わせて適用することができます。次に、初期段階後に再重み付けを行うという単純ながら効果的な訓練スケジュールを提案します。これにより、モデルは初期表現を学習しながら、再重み付けや再サンプリングに関連する一部の複雑さを回避できます。私たちはこれらの手法をいくつかのベンチマーク視覚タスクでテストし、実世界の不均衡データセットであるiNaturalist 2018も含まれています。実験結果は、これらの手法のいずれかだけでも既存の技術よりも改善できることを示しており、両者の組み合わせではさらなる性能向上が達成されました。