
ニューラルネットワークを用いた教師あり学習において大きな進展が見られても、高品質で大規模かつ正確にラベル付けされたデータセットを獲得することは依然として大きな課題である。このような状況下で、ノイズを含むラベルを持つデータからの学習はますます注目されている。この問題は比較的複雑であり、良好な結果を得るためには、教師あり学習、半教師あり学習、転移学習など複数の分野の要素を統合する必要があり、結果として手法が複雑化する傾向にある。さらに、多くの手法はデータのノイズの種類について複数の仮定を置くことが多く、モデルのロバスト性に悪影響を及ぼし、異なるノイズ環境下での性能を制限している。本論文では、ノイズの程度と種類の両方が未知である状況下での学習という新たな問題設定——「未知のラベルノイズにおける学習(Learning with Unknown Label Noise: LULN)」——を提案する。従来の手法が複数の仮定を導入し、複雑な解決策を採用するのに対し、本研究では、最小限のハイパーパラメータで済むシンプルかつ効率的でロバストなフレームワーク「サンプル選択と再ラベル化(Sample Selection and Relabelling: SSR)」を提案する。このフレームワークは、多様なノイズ条件下で最先端(SOTA)の性能を達成している。本手法の核となるのは、非パラメトリックなK近傍法分類器(NPK: $g_q$)とパラメトリックモデル分類器(PMC: $g_p$)を用いた、クリーンなサンプルの選択と、徐々にノイズのあるサンプルの再ラベル化という機構である。モデルの共同訓練や自己教師あり事前学習、半教師あり学習といった複雑な構成要素を一切用いず、わずかなハイパーパラメータの設定に対して高いロバスト性を備えている。この点が、合成ノイズを含むCIFAR10/CIFAR100および実世界のノイズデータセット(WebVision、Clothing1M、ANIMAL-10N)において、従来の手法を大きく上回る性能を実現している要因である。コードは以下のURLで公開されている:https://github.com/MrChenFeng/SSR_BMVC2022