Apprentissage avec un bruit étiqueté dépendant des instances : une approche par tamisage d’échantillons

Les étiquettes annotées par des humains sont souvent sujettes à du bruit, et la présence de ce bruit entraîne une dégradation des performances des modèles de réseaux de neurones profonds (DNN) obtenus. La majeure partie de la littérature sur l’apprentissage avec des étiquettes bruitées (avec plusieurs exceptions récentes) se concentre sur le cas où le bruit d’étiquette est indépendant des caractéristiques. En pratique, les erreurs d’annotation ont tendance à dépendre des instances et souvent du degré de difficulté associé à la reconnaissance d’une tâche donnée. L’application des résultats existants dans les cadres indépendants des instances exige une estimation importante des taux de bruit, ce qui constitue un inconvénient pratique. Par conséquent, proposer des solutions théoriquement rigoureuses pour l’apprentissage en présence de bruit d’étiquettes dépendant des instances reste un défi. Dans cet article, nous proposons CORES$^{2}$ (COnfidence REgularized Sample Sieve), une méthode qui élimine progressivement les exemples corrompus. La mise en œuvre de CORES$^{2}$ ne nécessite pas de spécifier les taux de bruit, tout en permettant d’établir des garanties théoriques sur sa capacité à filtrer les exemples défectueux. Ce tamis à échantillons de haute qualité permet de traiter séparément les exemples propres et les exemples corrompus lors de l’entraînement d’un modèle DNN, une séparation qui s’avère particulièrement avantageuse dans le cadre du bruit dépendant des instances. Nous évaluons les performances de CORES$^{2}$ sur les jeux de données CIFAR-10 et CIFAR-100 avec un bruit d’étiquettes synthétique dépendant des instances, ainsi que sur Clothing1M, qui présente un bruit d’annotation réel provenant d’humains. Par ailleurs, de manière indépendante, notre tamis d’échantillons constitue une mécanique générique pour analyser des jeux de données bruités, tout en offrant une interface souple pour intégrer diverses techniques d’entraînement robuste afin d’améliorer davantage les performances. Le code est disponible à l’adresse suivante : https://github.com/UCSC-REAL/cores.