HyperAIHyperAI
il y a 17 jours

Nettoyage de jeu de données robuste et en temps réel pour la classification d'images

Jiaming Song, Lunjia Hu, Michael Auli, Yann Dauphin, Tengyu Ma
Nettoyage de jeu de données robuste et en temps réel pour la classification d'images
Résumé

La mémoire dans les réseaux de neurones sur-paramétrés peut gravement nuire à la généralisation en présence d’exemples mal étiquetés. Or, de tels exemples sont difficiles à éviter dans des jeux de données extrêmement volumineux collectés grâce à une supervision faible. Nous abordons ce problème en raisonnant de manière contre-factuelle sur la distribution de perte des exemples dotés d’étiquettes aléatoires uniformes, comme s’ils avaient été entraînés avec les exemples réels, et en utilisant ces informations pour éliminer les exemples bruités du jeu d’entraînement. Premièrement, nous observons que les exemples munis d’étiquettes aléatoires uniformes présentent des pertes plus élevées lorsqu’ils sont entraînés par descente de gradient stochastique avec des taux d’apprentissage élevés. Ensuite, nous proposons de modéliser la distribution de perte de ces exemples contre-factuels en utilisant uniquement les paramètres du réseau, ce qui s’avère extrêmement efficace. Enfin, nous suggérons d’éliminer les exemples dont la perte dépasse un certain quantile de la distribution de perte modélisée. Cela conduit à l’algorithme ODD (On-the-fly Data Denoising), simple mais efficace, robuste aux exemples mal étiquetés, tout en introduisant pratiquement aucun surcoût computationnel par rapport à un entraînement standard. L’ODD parvient à atteindre des résultats de pointe sur une large gamme de jeux de données, y compris des jeux réels tels que WebVision et Clothing1M.