Perte de robustesse distributionnelle pour l'apprentissage en queue longue

Les données du monde réel sont souvent déséquilibrées et suivent une distribution en queue longue, mais les modèles profonds peinent à reconnaître les classes rares en présence de classes fréquentes. Pour traiter ce déséquilibre, la plupart des études tentent d’équilibrer les données, la fonction de perte ou le classificateur afin de réduire le biais de classification en faveur des classes dominantes (head classes). Bien moins d’attention a été portée aux représentations latentes apprises à partir de données déséquilibrées. Nous montrons que la partie extractrice de caractéristiques des réseaux profonds souffre fortement de ce biais. Nous proposons une nouvelle fonction de perte fondée sur la théorie de la robustesse, qui incite le modèle à apprendre des représentations de haute qualité tant pour les classes dominantes que pour les classes rares (tail classes). Bien que la forme générale de cette perte de robustesse puisse être difficile à calculer, nous en dérivons une borne supérieure facile à calculer, minimisable efficacement. Cette procédure réduit le biais des représentations en faveur des classes dominantes dans l’espace des caractéristiques et permet d’atteindre de nouveaux résultats SOTA sur les benchmarks long-tail CIFAR100-LT, ImageNet-LT et iNaturalist. Nous observons que l’entraînement avec cette robustesse améliore significativement la précision de reconnaissance des classes rares tout en préservant largement la précision des classes dominantes. La nouvelle fonction de perte de robustesse peut être combinée à diverses techniques d’équilibrage du classificateur et appliquée à des représentations issues de plusieurs couches du modèle profond.