HyperAIHyperAI

Command Palette

Search for a command to run...

Nettoyage de jeu de données robuste et en temps réel pour la classification d'images

Jiaming Song Lunjia Hu Michael Auli Yann Dauphin Tengyu Ma

Résumé

La mémoire dans les réseaux de neurones sur-paramétrés peut gravement nuire à la généralisation en présence d’exemples mal étiquetés. Or, de tels exemples sont difficiles à éviter dans des jeux de données extrêmement volumineux collectés grâce à une supervision faible. Nous abordons ce problème en raisonnant de manière contre-factuelle sur la distribution de perte des exemples dotés d’étiquettes aléatoires uniformes, comme s’ils avaient été entraînés avec les exemples réels, et en utilisant ces informations pour éliminer les exemples bruités du jeu d’entraînement. Premièrement, nous observons que les exemples munis d’étiquettes aléatoires uniformes présentent des pertes plus élevées lorsqu’ils sont entraînés par descente de gradient stochastique avec des taux d’apprentissage élevés. Ensuite, nous proposons de modéliser la distribution de perte de ces exemples contre-factuels en utilisant uniquement les paramètres du réseau, ce qui s’avère extrêmement efficace. Enfin, nous suggérons d’éliminer les exemples dont la perte dépasse un certain quantile de la distribution de perte modélisée. Cela conduit à l’algorithme ODD (On-the-fly Data Denoising), simple mais efficace, robuste aux exemples mal étiquetés, tout en introduisant pratiquement aucun surcoût computationnel par rapport à un entraînement standard. L’ODD parvient à atteindre des résultats de pointe sur une large gamme de jeux de données, y compris des jeux réels tels que WebVision et Clothing1M.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp