17日前

画像分類のためのロバストかつオンザフライ型データセットノイズ除去

Jiaming Song, Lunjia Hu, Michael Auli, Yann Dauphin, Tengyu Ma

要約

過パラメータ化されたニューラルネットワークにおける記憶化は、誤ラベル付きの例が存在する状況下で一般化性能を著しく損なう可能性がある。しかし、弱い監督（weak supervision）によって収集される極めて大規模なデータセットでは、誤ラベル付きの例を回避することは困難である。本研究では、実際の例で学習された場合に、一様なランダムラベルを持つ例の損失分布について反事実的な推論を行い、その情報を用いて訓練データからノイズを除去する手法を提案する。まず、大規模な学習率のもとで確率的勾配降下法（SGD）によって学習する際、一様なランダムラベルを持つ例はより高い損失値を示すことを観察した。次に、ネットワークのパラメータのみを用いて反事実的例の損失分布をモデル化する手法を提案する。このアプローチは、このような例の損失分布を非常に高い精度で再現できることが示された。最後に、モデル化された損失分布の特定の分位数を超える損失を持つ例を訓練データから削除する戦略を採用した。これにより、標準的な学習と比べてほぼゼロの計算オーバーヘッドで、誤ラベル例に対して堅牢な「オンザフライ・データ・デノイジング（On-the-fly Data Denoising: ODD）」というシンプルかつ効果的なアルゴリズムが実現された。ODDは、WebVisionやClothing1Mといった実世界のデータセットを含む広範なデータセットにおいて、最先端の性能を達成することが可能である。