Bruit d'étiquettes dépendant de l'entrée corrélé dans la classification d'images à grande échelle

Les jeux de données d’image à grande échelle pour la classification contiennent souvent des étiquettes bruitées. Nous adoptons une approche probabiliste rigoureuse pour modéliser le bruit d’étiquette dépendant de l’entrée, également appelé bruit hétéroscédastique, dans ces jeux de données. Nous introduisons une variable latente suivant une loi normale multivariée sur la dernière couche cachée d’un classificateur à réseau de neurones. La matrice de covariance de cette variable latente modélise l’incertitude aleatoires due au bruit d’étiquette. Nous démontrons que la structure de covariance apprise capture efficacement les sources connues de bruit d’étiquette entre des classes sémantiquement similaires ou fréquemment co-occurentes. Par rapport à l’entraînement standard des réseaux de neurones et à d’autres méthodes de référence, nous obtenons une amélioration significative de la précision sur ImageNet ILSVRC 2012 (79,3 %, +2,6 %), ImageNet-21k (47,0 %, +1,1 %) et JFT (64,7 %, +1,6 %). Nous établissons un nouveau record d’état de l’art sur WebVision 1.0 avec une précision top-1 de 76,6 %. Ces jeux de données varient de plus d’un million à plus de 300 millions d’exemples d’entraînement, et de 1 000 à plus de 21 000 classes. Notre méthode est simple à mettre en œuvre, et nous fournissons une implémentation qui peut être utilisée comme remplacement direct de la dernière couche entièrement connectée dans un classificateur profond.