ノイズのあるラベルによる学習のための特徴量の圧縮

教師あり学習は、入力データから関連する情報を抽出し、特徴表現に凝縮するプロセスと捉えることができる。しかし、教師信号がノイズを含む場合、この凝縮プロセスは困難となる。なぜなら、抽出される情報が必ずしも関連性を持つとは限らないからである。実際、最近の研究では、ニューラルネットワークが誤標記されたラベルを含むすべてのラベルに容易に過学習してしまうことが示されており、その結果、クリーンなデータセットへの一般化能力が著しく低下する。本論文では、ノイズを含むラベルを用いた学習という問題に注目し、ネットワークアーキテクチャに「圧縮誘導バイアス(compression inductive bias)」を導入することで、過学習の問題を緩和する手法を提案する。具体的には、古典的な正則化手法であるDropoutおよびその拡張であるNested Dropoutを再検討する。Dropoutは、特徴のランダムな削除というメカニズムにより、特徴の圧縮を制約する役割を果たす。一方、Nested Dropoutは、特徴の重要度に基づいた順序付けされた特徴表現を学習する。さらに、圧縮正則化を適用して学習されたモデルを、Co-teachingと組み合わせることで、性能の向上を実現する。理論的には、圧縮正則化の下での目的関数に対してバイアス-バリアンス分解を実施し、単一モデルおよびCo-teachingの両方に対して解析を行った。この分解から以下の3つの知見が得られた:(i) ノイズを含むラベルでの学習において、過学習が実際の問題であることが示された;(ii) 情報ボトルネックの枠組みを用いて、提案する特徴圧縮がラベルノイズに対抗するメカニズムを説明できた;(iii) Co-teachingに圧縮正則化を組み込むことで性能が向上する理由を理論的に解明した。実験の結果、本手法は実世界のラベルノイズを含むベンチマーク(Clothing1MやANIMAL-10Nなど)において、既存の最先端手法と同等、あるいはそれ以上に優れた性能を達成した。本研究の実装コードは、以下のURLから公開されている:https://yingyichen-cyy.github.io/CompressFeatNoisyLabels/。