il y a 10 jours

L'apprentissage auto-supervisé est plus robuste face à l'iméquilibre des jeux de données

Hong Liu, Jeff Z. HaoChen, Adrien Gaidon, Tengyu Ma

Résumé

L'apprentissage auto-supervisé (SSL) constitue une méthode évolutif pour l'apprentissage de représentations visuelles générales, car il ne nécessite pas d'étiquettes. Toutefois, les grands ensembles de données non étiquetées du monde réel présentent souvent des distributions de classes fortement déséquilibrées, où nous disposons de peu de connaissances sur le comportement du SSL. Dans ce travail, nous étudions de manière systématique l'apprentissage auto-supervisé en présence d'un déséquilibre dans les données. Premièrement, à travers des expériences étendues, nous constatons que les représentations auto-supervisées disponibles « de base » sont déjà plus robustes au déséquilibre de classes que les représentations supervisées. L'écart de performance entre un pré-entraînement équilibré et déséquilibré avec le SSL est significativement plus faible que celui observé avec l'apprentissage supervisé, quel que soit le nombre d'exemples, tant pour l'évaluation intra-domaine que, surtout, pour l'évaluation hors-domaine. Deuxièmement, afin de mieux comprendre cette robustesse du SSL, nous proposons l'hypothèse selon laquelle le SSL extrait des caractéristiques plus riches à partir des données fréquentes : il pourrait apprendre des caractéristiques non liées aux étiquettes mais transférables, qui aident à classifier les classes rares ainsi que les tâches ultérieures. À l'inverse, l'apprentissage supervisé n'a aucun incitatif à extraire des caractéristiques non pertinentes par rapport aux étiquettes à partir des exemples fréquents. Nous validons cette hypothèse à l'aide d'expériences semi-synthétiques et d'analyses théoriques menées dans un cadre simplifié. Troisièmement, inspirés par ces résultats théoriques, nous proposons une technique de régularisation ré-pondérée qui améliore de manière cohérente la qualité des représentations SSL sur des ensembles déséquilibrés, selon plusieurs critères d'évaluation, réduisant ainsi le petit écart existant entre les ensembles équilibrés et déséquilibrés comportant le même nombre d'exemples.