HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage avec un bruit étiqueté dépendant des instances : une approche par tamisage d’échantillons

Hao Cheng Zhaowei Zhu Xingyu Li Yifei Gong Xing Sun Yang Liu

Résumé

Les étiquettes annotées par des humains sont souvent sujettes à du bruit, et la présence de ce bruit entraîne une dégradation des performances des modèles de réseaux de neurones profonds (DNN) obtenus. La majeure partie de la littérature sur l’apprentissage avec des étiquettes bruitées (avec plusieurs exceptions récentes) se concentre sur le cas où le bruit d’étiquette est indépendant des caractéristiques. En pratique, les erreurs d’annotation ont tendance à dépendre des instances et souvent du degré de difficulté associé à la reconnaissance d’une tâche donnée. L’application des résultats existants dans les cadres indépendants des instances exige une estimation importante des taux de bruit, ce qui constitue un inconvénient pratique. Par conséquent, proposer des solutions théoriquement rigoureuses pour l’apprentissage en présence de bruit d’étiquettes dépendant des instances reste un défi. Dans cet article, nous proposons CORES2^{2}2 (COnfidence REgularized Sample Sieve), une méthode qui élimine progressivement les exemples corrompus. La mise en œuvre de CORES2^{2}2 ne nécessite pas de spécifier les taux de bruit, tout en permettant d’établir des garanties théoriques sur sa capacité à filtrer les exemples défectueux. Ce tamis à échantillons de haute qualité permet de traiter séparément les exemples propres et les exemples corrompus lors de l’entraînement d’un modèle DNN, une séparation qui s’avère particulièrement avantageuse dans le cadre du bruit dépendant des instances. Nous évaluons les performances de CORES2^{2}2 sur les jeux de données CIFAR-10 et CIFAR-100 avec un bruit d’étiquettes synthétique dépendant des instances, ainsi que sur Clothing1M, qui présente un bruit d’annotation réel provenant d’humains. Par ailleurs, de manière indépendante, notre tamis d’échantillons constitue une mécanique générique pour analyser des jeux de données bruités, tout en offrant une interface souple pour intégrer diverses techniques d’entraînement robuste afin d’améliorer davantage les performances. Le code est disponible à l’adresse suivante : https://github.com/UCSC-REAL/cores.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp