17日前

ノイズ付きラベルの誤差バウンド補正

Songzhu Zheng, Pengxiang Wu, Aman Goswami, Mayank Goswami, Dimitris Metaxas, Chao Chen
要約

大規模なアノテーション付きデータを収集するには、ラベルノイズ(すなわち誤ったクラスラベル)を導入することが避けがたい。ラベルノイズに対して頑健であるためには、多くの成功した手法が、ノイズを含む訓練データ上で学習された分類器(ノイズ付き分類器)を利用して、各ラベルが信頼できるかどうかを判断している。しかし、このヒューリスティックが実際の現場でなぜうまく機能するのかは、これまで不明であった。本論文では、こうした手法に対する初めての理論的解釈を提供する。我々は、ノイズ付き分類器の予測が、訓練データのラベルがクリーンであるかどうかを良好に示す指標となり得ることを証明する。この理論的知見に基づき、ノイズ付き分類器の予測を用いてラベルを修正する新たなアルゴリズムを提案する。この修正されたラベルは、高い確率で真のベイズ最適分類器と整合する。さらに、このラベル修正アルゴリズムを深層ニューラルネットワークの学習プロセスに組み込み、複数の公開データセットにおいて優れたテスト性能を達成するモデルを学習した。