インスタンス依存ラベルノイズにおける学習:サンプルシーブアプローチ

人間によるラベル付与はしばしばノイズを含み、このようなノイズの存在は得られる深層ニューラルネットワーク(DNN)モデルの性能を低下させる。従来の研究文献の多く(いくつかの最近の例外を除く)は、ラベルノイズが特徴量とは独立している場合に焦点を当てている。実際には、ラベルの誤りはインスタンスに依存する傾向があり、特定のタスクを認識する難易度に依存することが多い。インスタンス独立な設定から得られた既存の結果を適用するには、ノイズ率の大量の推定が必要となる。したがって、インスタンス依存ラベルノイズを伴う学習に対して理論的に厳密な解決策を提供することは、依然として大きな課題である。本論文では、汚染されたサンプルを段階的に抽出する「CORES²(COnfidence REgularized Sample Sieve)」を提案する。CORES²の実装にはノイズ率の事前指定を必要とせず、同時に汚染されたサンプルを効果的にフィルタリングするという理論的保証を提供できる。この高品質なサンプルスィーブにより、DNNモデルの学習において清浄なサンプルと汚染されたサンプルを別々に扱うことが可能となり、特にインスタンス依存ノイズの設定においてその分離が有利であることが示された。我々は、合成されたインスタンス依存ラベルノイズを用いたCIFAR10およびCIFAR100データセット、および実世界の人間によるノイズを含むClothing1Mデータセット上でCORES²の性能を検証した。別途の利点として、本研究で提案するサンプルスィーブは、ノイズを含むデータセットを解析する汎用的なフレームワークを提供し、さまざまなロバストな学習手法を柔軟に統合・拡張するためのインターフェースとしても機能することが示された。コードは https://github.com/UCSC-REAL/cores にて公開されている。