il y a un mois

Rendre les réseaux de neurones profonds robustes au bruit des étiquettes : une approche de correction de la perte

Giorgio Patrini; Alessandro Rozza; Aditya Menon; Richard Nock; Lizhen Qu

Résumé

Nous présentons une approche théoriquement fondée pour entraîner des réseaux de neurones profonds, y compris les réseaux récurrents, en présence de bruit d'étiquetage dépendant de la classe. Nous proposons deux procédures de correction de la fonction de perte qui sont agnostiques par rapport au domaine d'application et à l'architecture du réseau. Ces procédures se limitent à une inversion matricielle et une multiplication, à condition que nous connaissions la probabilité que chaque classe soit corrompue en une autre. Nous montrons également comment estimer ces probabilités, en adaptant une technique récente d'estimation du bruit au cadre multiclasses, offrant ainsi un cadre complet d'une extrémité à l'autre. Des expériences étendues sur MNIST, IMDB, CIFAR-10, CIFAR-100 et un grand ensemble de données d'images de vêtements utilisant une variété d'architectures — empilant des couches denses, convolutionnelles, de regroupement (pooling), de décrochage (dropout), de normalisation par lots (batch normalization), d'incrustation de mots (word embedding), LSTM et résiduelles — démontrent la robustesse au bruit de nos propositions. Par ailleurs, nous prouvons que lorsque ReLU est la seule non-linéarité, la courbure de la fonction de perte est immunisée contre le bruit d'étiquetage dépendant de la classe.