il y a 10 jours

Apprentissage de données déséquilibrées avec des Vision Transformers

Zhengzhuo Xu, Ruikang Liu, Shuo Yang, Zenghao Chai, Chun Yuan

Résumé

Les données du monde réel sont généralement fortement déséquilibrées, ce qui biaise fortement les réseaux de neurones profonds pilotés par les données, rendant ainsi la reconnaissance en régime longue queue (Long-Tailed Recognition, LTR) une tâche extrêmement difficile. Les méthodes actuelles de LTR s'intéressent rarement à l'entraînement des Vision Transformers (ViTs) sur des données à queue longue (LT), tandis que l'utilisation de poids pré-entraînés disponibles en standard pour les ViTs entraîne souvent des comparaisons biaisées. Dans cet article, nous étudions systématiquement les performances des ViTs dans le cadre de la LTR et proposons LiVT, une méthode permettant d'entraîner les ViTs à partir de zéro uniquement à l'aide de données à queue longue. En observant que les ViTs sont particulièrement sensibles aux problèmes de LTR, nous introduisons une pré-entraînement génératif masqué (Masked Generative Pretraining, MGP) afin d'apprendre des caractéristiques généralisées. À l'aide de preuves abondantes et solides, nous démontrons que MGP est plus robuste que les approches supervisées. En outre, la fonction de perte de régression binaire (Binary Cross Entropy, BCE), qui se distingue par de bons résultats sur les ViTs, rencontre des difficultés majeures dans le cadre de la LTR. Nous proposons donc une version équilibrée de la BCE (Bal-BCE), dont les fondements théoriques sont solides. Plus précisément, nous dérivons une extension sans biais de la fonction sigmoïde et ajoutons des marges supplémentaires sur les logits pour la mise en œuvre. Grâce à Bal-BCE, LiVT permet une convergence rapide des ViTs en seulement quelques époques. Des expériences étendues montrent qu'en combinant MGP et Bal-BCE, LiVT permet d'entraîner efficacement les ViTs sans nécessiter de données supplémentaires, surpassant significativement les méthodes de pointe comparables. Par exemple, notre modèle ViT-B atteint une précision Top-1 de 81,0 % sur iNaturalist 2018, sans aucune optimisation supplémentaire. Le code est disponible à l'adresse suivante : https://github.com/XuZhengzhuo/LiVT.