17日前
大規模画像分類における相関する入力依存型ラベルノイズ
Mark Collier, Basil Mustafa, Efi Kokiopoulou, Rodolphe Jenatton, Jesse Berent

要約
大規模な画像分類データセットには、しばしばノイズのあるラベルが含まれる。本研究では、これらのデータセットにおける入力依存性(すなわち異分散性)ラベルノイズを、原理的な確率的アプローチでモデル化する。ニューラルネットワーク分類器の最終隠れ層に、多変量正規分布に従う潜在変数を導入し、その共分散行列によってラベルノイズに起因するアレアトリック不確実性(aleatoric uncertainty)を表現する。実証的に、学習された共分散構造が意味的に類似または同時出現するクラス間における既知のラベルノイズ要因を適切に捉えていることを示した。標準的なニューラルネットワーク学習法および他のベースライン手法と比較して、ImageNet ILSVRC 2012 では79.3%(+2.6%)、ImageNet-21k では47.0%(+1.1%)、JFT では64.7%(+1.6%)の顕著な精度向上を達成した。また、WebVision 1.0においては76.6%のトップ1精度を記録し、新たなSOTA(最良の成果)を樹立した。これらのデータセットは、100万以上から3億以上に及ぶ学習例、1,000クラスから21,000クラス以上のクラス数をカバーしており、規模が多岐にわたる。本手法は実装が簡単で、深層分類器の最終全結合層への置き換えとして即座に利用可能な実装を提供している。