Lissage ou pas ? Lorsque le lissage des étiquettes rencontre les étiquettes bruyantes

Le lissage des étiquettes (Label Smoothing, LS) est un paradigme d’apprentissage émergent qui utilise une moyenne pondérée positive à la fois des étiquettes d’entraînement rigides (hard labels) et des étiquettes douces uniformément distribuées. Il a été démontré que le LS agit comme un régularisateur pour les données d’entraînement comportant des étiquettes rigides, améliorant ainsi la généralisation du modèle. Par la suite, il a été rapporté que le LS contribue également à améliorer la robustesse lors de l’apprentissage avec des étiquettes bruitées. Toutefois, nous avons observé que l’avantage du LS disparaît dans un régime de bruit d’étiquettes élevé. Intuitivement, cela s’explique par l’augmentation de l’entropie de $\mathbb{P}(\text{étiquette bruitée}|X)$ lorsque le taux de bruit est élevé : dans ce cas, l’application supplémentaire du LS tend à « sur-lisser » la postérieure estimée. Nous avons ensuite découvert que plusieurs approches existantes pour l’apprentissage avec des étiquettes bruitées dans la littérature sont en réalité plus proches du lissage négatif ou non-lissage des étiquettes (Negative Label Smoothing, NLS), qui agit en sens inverse du LS et consiste à combiner les étiquettes dures et douces avec un poids négatif ! Nous fournissons une compréhension des propriétés du LS et du NLS dans le contexte de l’apprentissage avec des étiquettes bruitées. Parmi d’autres propriétés établies, nous montrons théoriquement que le NLS est particulièrement avantageux lorsque les taux de bruit d’étiquettes sont élevés. Nous soutenons également nos résultats par des expérimentations étendues sur plusieurs benchmarks. Le code est disponible publiquement à l’adresse suivante : https://github.com/UCSC-REAL/negative-label-smoothing.