
現実世界のデータセットにおいて、不完全なラベルは広く見られる現象である。近年、ラベルノイズに強い深層ニューラルネットワーク(DNN)を学習するための成功した手法は、主に2つの技術を用いている。一つは、ウォームアップ期間中に損失に基づいてサンプルをフィルタリングし、初期のクリーンなラベル付きサンプルセットを構築する方法であり、もう一つは、ネットワークの出力を後続の損失計算に用いる擬似ラベル(pseudo-label)として利用する手法である。本論文では、「ノイズのあるラベルでの学習」問題に取り組むアルゴリズムに対するさまざまな増強戦略(augmentation strategies)を評価する。我々は複数の増強戦略を提案・検討し、CIFAR-10およびCIFAR-100に基づく合成データセット、および実世界のデータセットClothing1Mを用いてその有効性を評価した。これらのアルゴリズムに共通する特徴に着目した結果、損失モデリングタスクと学習タスクでそれぞれ異なる増強セットを使用することが最も効果的であることがわかった。この戦略により、最先端手法を含む既存の多くの手法の性能が向上した。さらに、ウォームアップ期間中に増強を適用すると、正しくラベル付けされたサンプルと誤ってラベル付けされたサンプルの間で損失の収束挙動に悪影響を与える可能性があることが明らかになった。本研究では、この増強戦略を最先端手法に導入し、評価されたすべてのノイズレベルにおいて性能向上を示した。特に、対称ノイズ率90%のCIFAR-10ベンチマークにおいて、絶対精度で15%以上向上を達成した。また、Clothing1Mデータセットにおいても、性能の改善が確認された。(K. Nishi および Y. Ding は本研究において同等の貢献をした)