
要約
ノイズを含む学習データセットは、通常、ニューラルネットワークの汎化性能およびロバスト性を低下させる要因となる。本論文では、ノイズラベル学習(LNL)におけるノイズデータの検出と除去を目的として、理論的に保証されたノイズラベル検出フレームワークを提案する。具体的には、ネットワークの特徴量とワンホットラベルの間の線形関係をモデル化するためのペナルティ付き回帰を設計し、回帰モデルで解かれた平均シフトパラメータが非ゼロとなるサンプルをノイズデータとして同定する。大規模なカテゴリ数および大量の学習データを含むデータセットに対してもスケーラブルとなるよう、全学習データセットを小さな部分に分割し、並列的にペナルティ付き回帰を適用可能な分割アルゴリズムを提案することで、スケーラブルペナルティ付き回帰(SPR)フレームワークを構築した。また、SPRが正しくノイズデータを識別するための非漸近的確率的条件を理論的に提示する。SPRは標準的な教師あり学習パイプラインにおけるサンプル選択モジュールとして利用可能であるが、さらに半教師あり学習アルゴリズムと組み合わせることで、ノイズデータをラベルなしデータとしてのサポートとしてより効果的に活用する。複数のベンチマークデータセットおよび実世界のノイズを含むデータセットにおける実験結果から、本フレームワークの有効性を示した。本研究のコードおよび事前学習済みモデルは、https://github.com/Yikai-Wang/SPR-LNL にて公開されている。