SELFIE : Rénovation d’échantillons sales pour un apprentissage profond robuste

En raison de leur pouvoir d'expression extrêmement élevé, les réseaux de neurones profonds ont tendance à mémoriser intégralement les données d'entraînement, même lorsque les étiquettes sont fortement bruitées. Pour surmonter le surapprentissage causé par des étiquettes bruyantes, nous proposons une nouvelle méthode robuste d'entraînement appelée SELFIE. L'idée centrale repose sur la sélection et la réparation ciblée d'échantillons douteux pouvant être corrigés avec une haute précision, permettant ainsi d'augmenter progressivement le nombre d'échantillons disponibles pour l'entraînement. Grâce à cette conception, SELFIE limite efficacement le risque d'accumulation de bruit provenant de corrections erronées tout en exploitant pleinement les données d'entraînement. Pour valider l'efficacité de SELFIE, nous avons mené des expérimentations approfondies sur quatre jeux de données réels ou synthétiques. Les résultats montrent que SELFIE améliore significativement l'erreur absolue sur les tests par rapport à deux méthodes de pointe actuelles.