8日前

ノックオフス-SPR:ノイズ付きラベルにおける学習におけるクリーンサンプル選択

Yikai Wang, Yanwei Fu, Xinwei Sun
ノックオフス-SPR:ノイズ付きラベルにおける学習におけるクリーンサンプル選択
要約

ノイズの多い学習データセットは、ニューラルネットワークの一般化性能およびロバスト性を低下させることが一般的である。本論文では、ノイズのあるラベルを用いた学習において、理論的に保証されたクリーンサンプル選択フレームワークを提案する。具体的には、まず、ネットワーク特徴量とワンホットラベルの間の線形関係をモデル化するためのスケーラブルペナルティ回帰(Scalable Penalized Regression, SPR)手法を提示する。SPRでは、回帰モデルによって解かれるゼロ平均シフトパラメータを用いてクリーンデータを識別する。理論的に、ある条件下ではSPRがクリーンデータを正確に回復できることを示す。しかし、一般的な状況ではその条件が満たされず、一部のノイズデータが誤ってクリーンデータとして選択される可能性がある。この問題を解決するため、ノイズデータの誤選択率(False-Selection-Rate, FSR)を理論的に制御可能な、ノイズフィルタを用いたデータ適応型スケーラブルペナルティ回帰(Knockoffs-SPR)を提案する。さらに、大規模データセットへのスケーラビリティを向上させるため、全訓練データを小さな部分に分割し、並列処理可能なアルゴリズムを導入した分割アルゴリズムも提示する。Knockoffs-SPRは標準的な教師あり学習パイプラインにおけるサンプル選択モジュールとして利用可能であるが、本研究ではさらに半教師あり学習アルゴリズムと組み合わせ、ノイズのあるデータをラベルなしデータとして活用する手法も提案する。複数のベンチマークデータセットおよび実世界のノイズを含むデータセットにおける実験結果から、本フレームワークの有効性が確認され、Knockoffs-SPRの理論的性質も実証された。本研究のコードおよび事前学習済みモデルは、https://github.com/Yikai-Wang/Knockoffs-SPR にて公開されている。