Korrelierte eingabehängige Label-Rausch in der großen Skala Bildklassifikation

Große Bildklassifikationsdatensätze enthalten oft fehlerhafte Etiketten. Wir verfolgen einen konsistenten, probabilistischen Ansatz zur Modellierung von eingabehäufigkeitsabhängiger, auch heteroskedastische Label-Rausch, in solchen Datensätzen. Wir führen eine mehrdimensional normalverteilte latente Variable auf der letzten versteckten Schicht eines neuronalen Netzwerk-Klassifikators ein. Die Kovarianzmatrix dieser latenten Variablen modelliert die aleatorische Unsicherheit, die durch Label-Rauschen verursacht wird. Wir zeigen, dass die gelernte Kovarianzstruktur bekannte Quellen von Label-Rauschen zwischen semantisch ähnlichen und gemeinsam auftretenden Klassen erfassen kann. Im Vergleich zu standardmäßiger neuronaler Netzwerk-Trainingsmethoden und anderen Baselines erreichen wir signifikant verbesserte Genauigkeiten auf ImageNet ILSVRC 2012 (79,3 %, +2,6 %), ImageNet-21k (47,0 %, +1,1 %) und JFT (64,7 %, +1,6 %). Auf WebVision 1.0 erreichen wir mit 76,6 % Top-1-Accuracy eine neue State-of-the-Art-Leistung. Diese Datensätze umfassen zwischen über 1 Mio. und über 300 Mio. Trainingsbeispielen sowie zwischen 1.000 und mehr als 21.000 Klassen. Unser Ansatz ist einfach anzuwenden, und wir stellen eine Implementierung bereit, die als direkte Ersetzung der letzten vollständig verbundenen Schicht in einem tiefen Klassifikator verwendet werden kann.