Compréhension du lissage de label généralisé lors de l'apprentissage avec des labels bruyants

Lissage des étiquettes (Label smoothing, LS) est un paradigme d’apprentissage émergent qui utilise une moyenne pondérée positive à la fois des étiquettes d’apprentissage rigides (hard labels) et des étiquettes douces uniformément distribuées. Il a été démontré que le LS agit comme un régularisateur pour les données d’apprentissage dotées d’étiquettes rigides, améliorant ainsi la généralisation du modèle. Par la suite, il a été rapporté que le LS contribue également à renforcer la robustesse lors de l’apprentissage avec des étiquettes bruitées. Toutefois, nous observons que l’avantage du LS disparaît dans un régime de bruit d’étiquettes élevé. Intrigués par cette observation, nous avons mené une analyse approfondie et constaté que plusieurs solutions proposées dans la littérature pour l’apprentissage avec des étiquettes bruyantes sont en réalité plus proches du lissage des étiquettes négatif (Negative Label Smoothing, NLS), défini comme l’utilisation d’un poids négatif pour combiner les étiquettes rigides et les étiquettes douces ! Nous montrons que le NLS diffère considérablement du LS en termes de confiance du modèle atteinte. Pour distinguer ces deux approches, nous désignerons le LS comme lissage des étiquettes positif (Positive Label Smoothing, PLS), et cette étude unifie PLS et NLS sous le cadre du lissage des étiquettes généralisé (Generalized Label Smoothing, GLS). Nous fournissons une compréhension théorique des propriétés du GLS dans le contexte de l’apprentissage avec des étiquettes bruyantes. Parmi d’autres résultats établis, nous démontrons théoriquement que le NLS s’avère particulièrement avantageux lorsque les taux de bruit d’étiquettes sont élevés. Des expérimentations étendues sur plusieurs benchmarks soutiennent également nos conclusions.