PSSCL : un cadre de sélection progressive d’échantillons basé sur une perte contrastive conçu pour les étiquettes bruitées
Les grands jeux de données d’images contiennent fréquemment des étiquettes bruitées inévitables, ce qui entraîne un surapprentissage (overfitting) dans les réseaux neuronaux profonds et une dégradation des performances. La plupart des méthodes existantes pour l’apprentissage à partir d’étiquettes bruitées fonctionnent selon des cadres à une seule étape, où la division des données d’entraînement et l’apprentissage semi-supervisé (SSL) sont étroitement imbriqués dans le processus d’optimisation. Par conséquent, leur efficacité dépend fortement de la précision de l’ensemble propre séparé, des connaissances a priori sur le bruit, ainsi que de la robustesse du SSL. Dans cet article, nous proposons un cadre progressif de sélection d’échantillons basé sur une perte de contraste pour les étiquettes bruitées, appelé PSSCL (Progressive Sample Selection with Contrastive Loss). Ce cadre fonctionne en deux étapes, en utilisant des pertes robustes et contrastives afin d’améliorer la robustesse du modèle. À l’étape I, l’objectif est d’identifier un petit ensemble propre grâce à une stratégie de détection de confiance à long terme, tandis que l’étape II vise à améliorer les performances en élargissant cet ensemble propre. PSSCL montre une amélioration significative par rapport aux méthodes de pointe sur diverses benchmarks. Le code source est disponible à l’adresse suivante : https://github.com/LanXiaoPang613/PSSCL.