8日前
ProMix:クリーンサンプルの有用性を最大化することでラベルノイズに挑む
Ruixuan Xiao, Yiwen Dong, Haobo Wang, Lei Feng, Runze Wu, Gang Chen, Junbo Zhao

要約
ノイズ付きラベルを用いた学習(LNL)は、不完全なラベル付けがなされたデータは比較的安価に入手できるため、近年注目されるテーマとなっています。最近の最先端手法では、クリーンなサンプルとノイズのあるサンプルを分離するための特定の選択機構を用い、その後、半教師あり学習(SSL)技術を適用して性能を向上させています。しかし、この選択ステップは、中程度のサイズでありながら十分な品質を持つクリーンサンプルのサブセットを生成するにとどまり、豊富なクリーンサンプルの潜在的な利活用が見逃されているのが現状です。この課題を解決するために、本研究では、クリーンサンプルの利活用を最大化し、性能の向上を図る新たなLNLフレームワーク「ProMix」を提案します。本手法の鍵となるのは、高い信頼度スコアを示し、与えられたラベルと一致する予測を行うサンプルを選び、動的にベースとなるクリーンサンプルセットを拡張する「マッチド高信頼度選択」手法の導入です。さらに、過剰なクリーンサンプルの選択によって生じる副作用を回避するため、分離されたクリーンサンプルとノイズサンプル上で、バランスの取れた偏りのない分類器を学習可能な新しいSSLフレームワークを考案しました。広範な実験により、ProMixが異なるノイズタイプおよびノイズレベルを持つ複数のベンチマークにおいて、現行の最先端技術を顕著に上回ることを示しました。特にCIFAR-Nデータセットにおいて、平均で2.48%の性能向上を達成しました。実装コードは、https://github.com/Justherozen/ProMix にて公開されています。