Apprentissage cumulatif de la cohérence des mélanges globaux et locaux pour les reconnaissances visuelles à queue longue

Dans cet article, notre objectif est de concevoir un paradigme d'apprentissage simple pour la reconnaissance visuelle à queue longue, qui non seulement améliore la robustesse de l'extracteur de caractéristiques mais aussi atténue le biais du classificateur en faveur des classes principales tout en réduisant les compétences et les coûts de formation nécessaires. Nous proposons une stratégie d'entraînement efficace en une seule étape pour la reconnaissance visuelle à queue longue appelée Apprentissage cumulatif par cohérence globale et locale des mélanges (GLMC). Nos idées centrales sont doubles : (1) une perte de cohérence globale et locale des mélanges améliore la robustesse de l'extracteur de caractéristiques. Plus précisément, nous générons deux lots augmentés par le mélange global MixUp et le mélange local CutMix à partir des mêmes données de lot, respectivement, puis nous utilisons la similarité cosinus pour minimiser la différence. (2) Une perte pondérée par rééquilibrage progressif des étiquettes douces des classes principales et secondaires atténue le problème de biais en faveur des classes principales. Nous utilisons les fréquences empiriques des classes pour rééquilibrer l'étiquette mixte des classes principales et secondaires dans les données à queue longue, puis nous équilibrons la perte conventionnelle et la perte rééquilibrée avec un coefficient accumulé au fil des époques. Notre approche atteint une précision d'état de l'art sur les jeux de données CIFAR10-LT, CIFAR100-LT et ImageNet-LT. Des expériences supplémentaires sur ImageNet équilibré et CIFAR montrent que GLMC peut considérablement améliorer la généralisation des backbones. Le code est rendu publiquement disponible sur https://github.com/ynu-yangpeng/GLMC.