HyperAIHyperAI

Command Palette

Search for a command to run...

L'apprentissage auto-supervisé est plus robuste face à l'iméquilibre des jeux de données

Hong Liu Jeff Z. HaoChen Adrien Gaidon Tengyu Ma

Résumé

L'apprentissage auto-supervisé (SSL) constitue une méthode évolutif pour l'apprentissage de représentations visuelles générales, car il ne nécessite pas d'étiquettes. Toutefois, les grands ensembles de données non étiquetées du monde réel présentent souvent des distributions de classes fortement déséquilibrées, où nous disposons de peu de connaissances sur le comportement du SSL. Dans ce travail, nous étudions de manière systématique l'apprentissage auto-supervisé en présence d'un déséquilibre dans les données. Premièrement, à travers des expériences étendues, nous constatons que les représentations auto-supervisées disponibles « de base » sont déjà plus robustes au déséquilibre de classes que les représentations supervisées. L'écart de performance entre un pré-entraînement équilibré et déséquilibré avec le SSL est significativement plus faible que celui observé avec l'apprentissage supervisé, quel que soit le nombre d'exemples, tant pour l'évaluation intra-domaine que, surtout, pour l'évaluation hors-domaine. Deuxièmement, afin de mieux comprendre cette robustesse du SSL, nous proposons l'hypothèse selon laquelle le SSL extrait des caractéristiques plus riches à partir des données fréquentes : il pourrait apprendre des caractéristiques non liées aux étiquettes mais transférables, qui aident à classifier les classes rares ainsi que les tâches ultérieures. À l'inverse, l'apprentissage supervisé n'a aucun incitatif à extraire des caractéristiques non pertinentes par rapport aux étiquettes à partir des exemples fréquents. Nous validons cette hypothèse à l'aide d'expériences semi-synthétiques et d'analyses théoriques menées dans un cadre simplifié. Troisièmement, inspirés par ces résultats théoriques, nous proposons une technique de régularisation ré-pondérée qui améliore de manière cohérente la qualité des représentations SSL sur des ensembles déséquilibrés, selon plusieurs critères d'évaluation, réduisant ainsi le petit écart existant entre les ensembles équilibrés et déséquilibrés comportant le même nombre d'exemples.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp