Perte dynamique pour un apprentissage robuste

Le bruit d’étiquettes et l’iméquilibre de classes coexistent fréquemment dans les données du monde réel. Les travaux antérieurs visant à apprendre de manière robuste traitent généralement un seul type de biais de données, et leur performance se dégrade lorsqu’ils sont confrontés aux deux simultanément. Pour combler cet écart, cette étude propose une nouvelle perte dynamique fondée sur l’apprentissage métalangage, qui ajuste automatiquement les fonctions objectifs au cours de l’entraînement afin d’apprendre robustement un classifieur à partir de données longues et bruyantes. Plus précisément, notre perte dynamique comprend deux composants : un correcteur d’étiquettes et un générateur de marges, qui corrigent respectivement les étiquettes erronées et génèrent des marges d’classification additives par classe en percevant la distribution sous-jacente des données ainsi que l’état d’apprentissage du classifieur. Grâce à une nouvelle stratégie d’échantillonnage hiérarchique, qui enrichit une petite quantité de métadonnées non biaisées par des échantillons diversifiés et difficiles, les deux composants de la perte dynamique sont optimisés conjointement par apprentissage métalangage, permettant au classifieur d’adapter efficacement ses performances à des données de test propres et équilibrées. Des expériences étendues montrent que notre méthode atteint un niveau d’exactitude de pointe sur plusieurs jeux de données réels et synthétiques présentant divers types de biais de données, notamment CIFAR-10/100, Animal-10N, ImageNet-LT et Webvision. Le code sera bientôt mis à disposition publiquement.