Apprentissage longue queue robuste sous bruit d'étiquettes

L’apprentissage à longue queue a récemment suscité un grand intérêt, dans le but d’améliorer la généralisation des classes rares (« tail classes »). La plupart des travaux existants reposent sur l’apprentissage supervisé, sans tenir compte du bruit omniprésent dans les jeux de données d’entraînement. Pour rapprocher l’apprentissage à longue queue de scénarios plus réalistes, ce travail s’intéresse au problème du bruit d’étiquettes sous une distribution de labels à longue queue. Nous observons tout d’abord l’impact négatif des étiquettes bruitées sur les performances des méthodes existantes, mettant en évidence les défis fondamentaux inhérents à ce problème. En tant que méthode la plus couramment utilisée dans la littérature pour faire face au bruit d’étiquettes, nous constatons que la stratégie du « petit-loss » échoue dans le cadre d’une distribution à longue queue. La raison en est que les réseaux neuronaux profonds ne parviennent pas à distinguer les exemples correctement étiquetés des exemples mal étiquetés pour les classes rares. Pour surmonter cette limitation, nous proposons une nouvelle méthode de détection de bruit basée sur un prototype, en concevant une métrique fondée sur la distance, résistante au bruit d’étiquettes. Sur la base de ces observations, nous introduisons un cadre robuste,~\algo, qui réalise la détection de bruit dans le contexte d’apprentissage à longue queue, suivie d’un étiquetage pseudo-supervisé doux via une combinaison de lissage d’étiquettes et de devinettes d’étiquettes diversifiées. De plus, notre cadre peut naturellement intégrer des algorithmes d’apprentissage semi-supervisé afin d’améliorer encore davantage la généralisation. Des expériences étendues sur des jeux de données standard et des données du monde réel démontrent l’avantage de notre méthode par rapport aux approches de référence. En particulier, notre méthode dépasse DivideMix de 3 % en précision sur les tests. Le code source sera bientôt publié.