HyperAIHyperAI

Command Palette

Search for a command to run...

画像分類のためのロバストかつオンザフライ型データセットノイズ除去

Jiaming Song Lunjia Hu Michael Auli Yann Dauphin Tengyu Ma

概要

過パラメータ化されたニューラルネットワークにおける記憶化は、誤ラベル付きの例が存在する状況下で一般化性能を著しく損なう可能性がある。しかし、弱い監督(weak supervision)によって収集される極めて大規模なデータセットでは、誤ラベル付きの例を回避することは困難である。本研究では、実際の例で学習された場合に、一様なランダムラベルを持つ例の損失分布について反事実的な推論を行い、その情報を用いて訓練データからノイズを除去する手法を提案する。まず、大規模な学習率のもとで確率的勾配降下法(SGD)によって学習する際、一様なランダムラベルを持つ例はより高い損失値を示すことを観察した。次に、ネットワークのパラメータのみを用いて反事実的例の損失分布をモデル化する手法を提案する。このアプローチは、このような例の損失分布を非常に高い精度で再現できることが示された。最後に、モデル化された損失分布の特定の分位数を超える損失を持つ例を訓練データから削除する戦略を採用した。これにより、標準的な学習と比べてほぼゼロの計算オーバーヘッドで、誤ラベル例に対して堅牢な「オンザフライ・データ・デノイジング(On-the-fly Data Denoising: ODD)」というシンプルかつ効果的なアルゴリズムが実現された。ODDは、WebVisionやClothing1Mといった実世界のデータセットを含む広範なデータセットにおいて、最先端の性能を達成することが可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
画像分類のためのロバストかつオンザフライ型データセットノイズ除去 | 記事 | HyperAI超神経