3ヶ月前

ラベルノイズ学習のためのクラスプロトタイプベースクリーナー

Jingjia Huang, Yuanqi Chen, Jiashi Feng, Xinglong Wu
ラベルノイズ学習のためのクラスプロトタイプベースクリーナー
要約

半教師あり学習に基づく手法は、ノイズラベル学習問題に対する現在の最先端(SOTA)ソリューションであり、訓練サンプルを「清潔なデータ」を含むラベル付き集合と「ノイズデータ」を含むラベルなし集合に分けるために、まず非教師付きラベルクリーナーを学習する点に依拠している。一般的に、このクリーナーは、各サンプルの訓練損失の分布に混合モデルを適合させることで得られる。しかし、このモデリングプロセスはクラスに依存せず、異なるクラス間で清潔なサンプルとノイズサンプルの損失分布が同一であると仮定している。実際には、クラスごとの学習難易度の違いにより、この仮定が常に成り立つとは限らないため、最適なラベルノイズ分割基準が得られず、結果として性能が劣化する。本研究では、長年無視されてきたこの問題を明らかにし、シンプルでありながら効果的な解決策であるClass Prototype-based label noise Cleaner(CPC)を提案する。従来の手法がすべてのクラスを等しく扱うのに対し、CPCは損失分布の異質性を完全に考慮し、クラスに応じたモジュレーションを適用して清潔データとノイズデータを分割する。CPCは特徴空間における損失分布モデリングとクラス内一貫性正則化の両方の利点を活かしており、清潔ラベルとノイズラベルをより正確に区別できる。本手法の有効性は、期待値最大化(EM)フレームワークから理論的に説明することにより裏付けられている。CIFAR-10、CIFAR-100、Clothing1M、WebVisionといったノイズラベルベンチマーク上での広範な実験の結果、CPCはすべてのベンチマークにおいて一貫して性能向上をもたらすことが示された。コードおよび事前学習済みモデルは、\url{https://github.com/hjjpku/CPC.git}にて公開される予定である。