HyperAIHyperAI

Command Palette

Search for a command to run...

サンプルの効果的数に基づくクラスバランス損失

Yin Cui; Menglin Jia; Tsung-Yi Lin; Yang Song; Serge Belongie

概要

大規模な実世界データセットの急速な増加に伴い、長尾分布(すなわち、一部のクラスがデータの大半を占め、多くのクラスが低頻度である)の問題に対処することが重要となっています。既存の解決策は通常、各クラスの観測数に基づいて再サンプリングや再重み付けなどのクラス再バランス戦略を採用しています。本研究では、サンプル数が増加するにつれて、新たに追加されたデータポイントの追加的な利点が減少すると主張します。私たちは、各サンプルに対して単一点ではなく小さな近傍領域を関連付けることでデータの重複を測定する新しい理論的枠組みを導入します。有効サンプル数はサンプルの体積として定義され、単純な式 (1βn)/(1β)(1-β^{n})/(1-β)(1βn)/(1β) で計算できます。ここで nnn はサンプル数、β[0,1)β\in [0,1)β[0,1) はハイパーパラメータです。私たちは各クラスの有効サンプル数を使用して損失を再バランス化するための新しい再重み付けスキームを設計しました。これによりクラス間でバランスの取れた損失が得られます。人工的に誘発した長尾分布を持つCIFARデータセットやImageNet、iNaturalistなどの大規模データセットに対して包括的な実験を行いました。結果は、提案されたクラス間でバランスの取れた損失を使用して訓練されたネットワークが長尾分布を持つデータセットにおいて有意な性能向上を達成できることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています