Apprentissage guidé par la dimensionalité avec des étiquettes bruitées

Les ensembles de données comportant des proportions importantes d'étiquettes de classe bruyantes (erronées) posent des défis pour l'entraînement de réseaux de neurones profonds (DNNs) précis. Nous proposons une nouvelle perspective pour comprendre la généralisation des DNNs dans ces ensembles de données, en étudiant la dimensionnalité du sous-espace de représentation profonde des échantillons d'entraînement. Nous montrons que, d'un point de vue dimensionnel, les DNNs présentent des styles d'apprentissage très distincts lorsqu'ils sont entraînés avec des étiquettes propres par rapport à lorsqu'ils sont entraînés avec une proportion d'étiquettes bruyantes. Sur la base de cette découverte, nous développons une nouvelle stratégie d'apprentissage guidée par la dimensionnalité, qui surveille la dimensionnalité des sous-espaces pendant l'entraînement et ajuste la fonction de perte en conséquence. Nous démontrons empiriquement que notre approche est très tolérante aux proportions importantes d'étiquettes bruyantes et peut apprendre efficacement des sous-espaces locaux de faible dimension qui capturent la distribution des données.