
要約
分類タスクにおいて、深層ニューラルネットワークはラベルノイズの存在下で過学習を起こしやすい。既存の手法は低ノイズレベルではこの問題を緩和できるものの、高ノイズレベルでは性能が著しく低下するか、また非対称なラベルノイズが存在する中程度のノイズレベルでも同様の問題が生じる。あらゆるノイズレベルに対して普遍的に頑健であり、ノイズモデルの変動に対して敏感でない分類器を学習するため、本研究では新たな正例-未ラベル学習(Positive-Unlabeled learning)のサブカテゴリを組み込んだ蒸留ベースのフレームワークを提案する。具体的には、与えられたノイズを含むデータセットの小さな部分が正しくラベル付けされていると仮定し、これを「正例」として扱う。残りのノイズを含む部分は「未ラベル」として扱う。本フレームワークは以下の2つの構成要素からなる:(1)反復的な更新を用いて、「未ラベル」データから信頼性の高い新たな「正例」サンプルを抽出し、拡張されたクリーンデータセットを生成する;(2)この拡張されたクリーンセット上で教師モデルを学習する。その後、教師モデルの指導のもと、全体のデータセット上で学生モデルを学習する。本手法の有効性を、対称的および非対称的な合成ラベルノイズを複数のノイズレベルで導入したCIFAR-10データセット上で検証した。その結果、中~高ノイズレベルにおいて、従来の手法を一般に上回ることが示された。さらに、現実世界のノイズを含むデータセットであるClothing1Mを用いた実験でも評価を行い、既存の最先端手法と比較して2.94%の精度向上を達成した。