6ヶ月前

概要

教師あり深層学習手法は、大規模なアノテーション付きデータベースを必要とするため、ラベルノイズは避けがたいものである。このようなノイズを含むデータで学習を行うと、深層ニューラルネットワークの一般化性能が著しく低下する。ラベルノイズに対処するため、近年の最先端手法では、可能な限りノイズの少ないデータサブセットを選択するサンプル選択機構を採用している。その後、選択されなかったサンプルをラベルなしデータとして扱い、汎用的な半教師あり学習手法を用いて学習を行う。本研究における包括的な分析により、現在の選択手法が、学習が容易な（高速に学習可能な）クラスのサンプルを過剰に選択し、相対的に難しいクラスのサンプルを多く排除していることが明らかになった。この結果、選択されたクリーンデータセットにクラスの不均衡が生じ、特にラベルノイズ率が高い状況下では性能が著しく低下する。本研究では、高ラベルノイズに強い、シンプルながら効果的なサンプル選択手法UNICONを提案する。容易なサンプルと困難なサンプルの偏った選択を解消するため、確率モデルやハイパーパラメータチューニングを必要としない、Jensen-Shannonダイバージェンスに基づく均一選択機構を導入した。さらに、ノイズラベルの記憶化を抑制するため、コントラスト学習を選択機構と組み合わせて用いる。複数のベンチマークデータセットにおける広範な実験により、UNICONの有効性が実証された。特に、90%のノイズ率下でCIFAR100データセットにおいて、現行の最先端手法に対して11.4%の性能向上を達成した。本研究のコードは公開されている。

ソースPDF コードを表示