サンプル先行情報に基づくロバストなモデル学習によるノイズラベルの抑制

現実世界のデータセットにおいて、不完全なラベル(ノイズラベル)は広く存在し、モデルの性能を著しく低下させる要因となっている。近年、ノイズラベルに対処する効果的な手法は、以下の2段階から構成されるものが多い:1)学習損失に基づいてサンプルを「正しくラベル付けされたもの」と「誤ってラベル付けされたもの」に分類する、2)半教師付き学習手法を用いて、誤ラベル付きのサンプル群に対して擬似ラベルを生成する。しかし、現在の手法は、困難なサンプル(hard samples)とノイズラベルのサンプルの損失分布が類似しているため、情報量の多い重要なハードクリーンサンプルが損なわれてしまうという問題を抱えている。本論文では、サンプルの事前知識(prior knowledge)を生成することでノイズを抑制する新たなフレームワークであるPGDF(Prior Guided Denoising Framework)を提案する。このフレームワークは、サンプルの分類ステップと半教師付き学習ステップの両方に統合され、より多くの情報量の高いハードクリーンサンプルを「正しくラベル付けされたセット」に保持することができる。さらに、擬似ラベル生成プロセスにおいて現在の手法が抱えるノイズの影響を抑制することで、半教師付き学習段階における擬似ラベルの品質を向上させる。また、学習過程において正しくラベル付けされたセット内のサンプルに対して再重み付け(reweighting)を施すことで、ハードサンプルの強化をさらに促進する。本手法は、CIFAR-10およびCIFAR-100に基づく合成データセット、および実世界のデータセットであるWebVisionとClothing1Mを用いて評価された結果、最先端手法と比較して顕著な性能向上が確認された。