HyperAIHyperAI
il y a 8 jours

Compression des caractéristiques pour l'apprentissage avec des étiquettes bruitées

Yingyi Chen, Shell Xu Hu, Xi Shen, Chunrong Ai, Johan A.K. Suykens
Compression des caractéristiques pour l'apprentissage avec des étiquettes bruitées
Résumé

L’apprentissage supervisé peut être vu comme un processus de distillation d’informations pertinentes à partir des données d’entrée vers des représentations de caractéristiques. Ce processus devient difficile lorsque la supervision est bruitée, car les informations extraites risquent de ne pas être pertinentes. En effet, des recherches récentes montrent que les réseaux peuvent facilement surajuster tous les étiquettes, y compris celles corrompues, et par conséquent peinent à généraliser sur des ensembles de données propres. Dans cet article, nous nous concentrons sur le problème de l’apprentissage avec des étiquettes bruitées et introduisons une biais d’induction par compression dans les architectures de réseaux afin de réduire ce problème de surajustement. Plus précisément, nous revisitons une régularisation classique appelée Dropout ainsi que sa variante, le Nested Dropout. Le Dropout peut agir comme une contrainte de compression grâce à son mécanisme de suppression aléatoire de caractéristiques, tandis que le Nested Dropout apprend des représentations de caractéristiques ordonnées selon leur importance. En outre, les modèles entraînés avec cette régularisation par compression sont combinés avec Co-teaching pour améliorer leurs performances.Du point de vue théorique, nous effectuons une décomposition biais-variance de la fonction objectif sous la régularisation par compression, que nous analysons tant pour un modèle unique que pour Co-teaching. Cette décomposition fournit trois insights clés : (i) elle montre effectivement que le surajustement est un problème réel dans l’apprentissage avec des étiquettes bruitées ; (ii) grâce à une formulation par goulot d’étranglement d’information, elle explique pourquoi la compression des caractéristiques proposée aide à lutter contre le bruit d’étiquettes ; (iii) elle fournit une justification de l’amélioration des performances obtenue en intégrant la régularisation par compression dans Co-teaching. Les expérimentations montrent que notre approche simple atteint des performances comparables, voire supérieures, aux méthodes de pointe sur des benchmarks comportant des étiquettes bruitées du monde réel, tels que Clothing1M et ANIMAL-10N. Notre implémentation est disponible à l’adresse suivante : https://yingyichen-cyy.github.io/CompressFeatNoisyLabels/.