Modélisation non supervisée du bruit des étiquettes et correction de la fonction de perte

Bien que robustes aux petites quantités de bruit d'étiquetage, les réseaux neuronaux convolutifs formés avec des méthodes de gradient stochastique ont été montrés capables de s'adapter facilement à des étiquettes aléatoires. Lorsqu'il y a un mélange d'objectifs correctement et incorrectement étiquetés, les réseaux ont tendance à s'adapter aux premiers avant les seconds. Ceci suggère l'utilisation d'un modèle de mélange à deux composantes approprié en tant que modèle génératif non supervisé des valeurs de perte d'échantillon pendant l'entraînement, afin de permettre une estimation en ligne de la probabilité qu'un échantillon soit incorrectement étiqueté. Plus précisément, nous proposons un mélange bêta pour estimer cette probabilité et corriger la perte en se basant sur la prédiction du réseau (la perte dite « bootstrapping »). Nous adaptons également l'augmentation mixup pour pousser notre approche encore plus loin. Des expériences menées sur CIFAR-10/100 et TinyImageNet démontrent une robustesse au bruit d'étiquetage qui dépasse considérablement les meilleures performances récentes. Le code source est disponible à l'adresse https://git.io/fjsvE.