HyperAIHyperAI

Command Palette

Search for a command to run...

Nettoyeur fondé sur les prototypes de classes pour l'apprentissage avec des bruits d'étiquettes

Jingjia Huang Yuanqi Chen Jiashi Feng Xinglong Wu

Résumé

Les méthodes fondées sur l’apprentissage semi-supervisé représentent actuellement les meilleures solutions (SOTA) au problème de l’apprentissage avec des étiquettes bruitées. Elles reposent sur l’apprentissage préalable d’un nettoyeur d’étiquettes non supervisé, afin de diviser les échantillons d’entraînement en un ensemble étiqueté contenant les données propres et un ensemble non étiqueté contenant les données bruyantes. En général, ce nettoyeur est obtenu en ajustant un modèle de mélange à la distribution des pertes par échantillon durant l’entraînement. Toutefois, cette procédure de modélisation est agnostique aux classes et suppose que les distributions de perte des échantillons propres et bruyants sont identiques entre les différentes classes. En pratique, cette hypothèse ne tient pas toujours, en raison des difficultés d’apprentissage variables selon les classes, ce qui conduit à des critères de partitionnement des étiquettes bruyantes sous-optimisés. Dans ce travail, nous mettons en évidence ce problème longtemps ignoré et proposons une solution simple mais efficace, nommée Class Prototype-based label noise Cleaner (CPC). Contrairement aux travaux antérieurs qui traitent toutes les classes de manière équivalente, CPC prend pleinement en compte l’hétérogénéité des distributions de perte et applique une modulation consciente des classes pour partitionner les données propres et bruyantes. CPC exploite simultanément la modélisation des distributions de perte et la régularisation de cohérence intra-classe dans l’espace des caractéristiques, permettant ainsi une meilleure distinction entre étiquettes propres et bruyantes. Nous justifions théoriquement l’efficacité de notre méthode en la replaçant dans le cadre de l’algorithme d’Expectation-Maximization (EM). Des expériences étendues sont menées sur les benchmarks à étiquettes bruyées CIFAR-10, CIFAR-100, Clothing1M et WebVision. Les résultats démontrent que CPC améliore de manière cohérente les performances sur tous les benchmarks. Le code source et les modèles pré-entraînés seront publiés à l’adresse suivante : \url{https://github.com/hjjpku/CPC.git}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Nettoyeur fondé sur les prototypes de classes pour l'apprentissage avec des bruits d'étiquettes | Articles | HyperAI