Échantillons FINE pour l'apprentissage avec des étiquettes bruitées

Les réseaux neuronaux profonds modernes deviennent fragiles lorsque les jeux de données contiennent des étiquettes de classe bruitées (incorrectes). Les techniques robustes face aux étiquettes bruyantes peuvent être classées en deux catégories : le développement de fonctions résistantes au bruit, ou l’utilisation de méthodes de nettoyage du bruit par détection des données erronées. Récemment, les méthodes de nettoyage du bruit sont considérées comme les algorithmes les plus compétitifs pour l’apprentissage avec étiquettes bruyantes. Malgré leurs succès, leurs détecteurs d’étiquettes bruyantes reposent souvent sur des heuristiques plutôt que sur une théorie solide, nécessitant un classificateur robuste pour prédire les données bruyantes à partir de leurs valeurs de perte. Dans cet article, nous proposons un nouveau détecteur pour filtrer le bruit d’étiquetage. Contrairement à la plupart des méthodes existantes, nous nous concentrons sur la dynamique des représentations latentes de chaque donnée et mesurons l’alignement entre la distribution latente et chaque représentation à l’aide de la décomposition en valeurs propres de la matrice gram des données. Notre cadre, intitulé FINE (Filtering Noisy Instances via their Eigenvectors), fournit un détecteur robuste basé sur des méthodes simples sans dérivées, offrant des garanties théoriques. Dans le cadre de FINE, nous proposons trois applications : une approche de sélection d’échantillons, une approche d’apprentissage semi-supervisé, et une collaboration avec des fonctions de perte résistantes au bruit. Les résultats expérimentaux montrent que les méthodes proposées surpassent de manière cohérente les méthodes de référence pour les trois applications sur diverses bases de données standard.