HyperAIHyperAI
il y a 3 mois

NGC : Un cadre unifié pour l'apprentissage avec des données bruyantes en monde ouvert

Zhi-Fan Wu, Tong Wei, Jianwen Jiang, Chaojie Mao, Mingqian Tang, Yu-Feng Li
NGC : Un cadre unifié pour l'apprentissage avec des données bruyantes en monde ouvert
Résumé

L’existence de données bruitées est fréquente tant dans les phases d’entraînement que de test des systèmes d’apprentissage automatique, ce qui entraîne inévitablement une dégradation des performances du modèle. Au cours de la dernière décennie, de nombreuses études se sont concentrées sur l’apprentissage avec des étiquettes bruitées de distribution inégale (IND), c’est-à-dire des échantillons d’entraînement auxquels sont attribuées des étiquettes incorrectes ne correspondant pas à leurs véritables classes. Toutefois, dans les scénarios d’application réels, il est essentiel de prendre en compte l’impact des échantillons hors distribution (OOD), c’est-à-dire des échantillons n’appartenant à aucune des classes connues, un aspect qui n’a pas encore été suffisamment exploré. Pour pallier ce manque, nous introduisons une nouvelle configuration de problème, nommée Apprentissage avec des données bruitées en monde ouvert (LOND). L’objectif du LOND est d’apprendre simultanément un classificateur et un détecteur d’échantillons OOD à partir de jeux de données mêlant des bruits IND et OOD. Dans cet article, nous proposons un nouveau cadre basé sur les graphes, appelé Nettoyage de graphe bruité (NGC), qui identifie les échantillons propres en exploitant la structure géométrique des données ainsi que la confiance des prédictions du modèle. Sans nécessiter d’entraînement supplémentaire, NGC peut détecter et rejeter directement les échantillons OOD lors de la phase de test, en s’appuyant sur les prototypes de classes appris. Nous menons des expériences sur plusieurs benchmarks avec différents types de bruit, et les résultats montrent que notre méthode surpasser largement les états de l’art.