Perte d'Entropie Croisée Généralisée pour l'Entraînement de Réseaux Neuronaux Profonds avec des Étiquettes Bruitées

Les réseaux neuronaux profonds (DNNs) ont connu un succès considérable dans diverses applications à travers de nombreuses disciplines. Cependant, leurs performances exceptionnelles s'accompagnent du coût élevé d'une nécessité de disposer de grands ensembles de données correctement annotés. De plus, en raison de la grande capacité des DNNs, les erreurs dans les étiquettes d'entraînement peuvent entraver les performances. Pour lutter contre ce problème, l'erreur absolue moyenne (MAE) a récemment été proposée comme une alternative robuste au bruit par rapport à l'entropie croisée catégorielle (CCE), couramment utilisée. Cependant, comme nous le montrons dans cet article, la MAE peut se comporter de manière médiocre avec les DNNs et les ensembles de données complexes. Nous présentons ici un ensemble de fonctions de perte théoriquement fondées qui peuvent être considérées comme une généralisation de la MAE et de la CCE. Les fonctions de perte proposées peuvent être facilement appliquées à toute architecture ou algorithme DNN existant, tout en offrant d'excellentes performances dans une large gamme de scénarios avec des étiquettes bruyantes. Nous rapportons les résultats d'expériences menées sur les ensembles de données CIFAR-10, CIFAR-100 et FASHION-MNIST, ainsi que sur des étiquettes bruyantes générées synthétiquement.