
要約
ノイズを含むデータ上で制御された実験を行うことは、さまざまなノイズレベルにおける深層学習の理解に不可欠である。これまでの研究では、適切なデータセットが不足していたため、深層学習の検証は主に制御された合成ラベルノイズに限定されてきたが、実世界のラベルノイズについては制御された設定での検討が行われていなかった。本論文は以下の3つの貢献を行う。第一に、ウェブから取得した実世界のラベルノイズを制御可能な形で構成した初めてのベンチマークを構築した。この新たなベンチマークにより、初めてウェブ由来のラベルノイズを制御された環境で系統的に研究することが可能になった。第二に、合成ノイズおよび実世界のノイズラベルの両方に対処できる、シンプルながら有効な手法を提案する。実験の結果、本手法は提案したデータセットにおいても、公開ベンチマーク(CIFARおよびWebVision)においても最良の性能を達成した。第三に、ノイズレベル、ノイズの種類、ネットワークアーキテクチャ、学習設定の多様な組み合わせにおいて、ノイズラベルで訓練された深層ニューラルネットワークを調査する、これまでで最も大規模な研究を実施した。本研究で用いたデータとコードは、以下のリンクから公開されている:http://www.lujiang.info/cnlw.html