Augmentation de l'espace des caractéristiques pour des données à distribution longue

Les données du monde réel suivent souvent une distribution à queue longue, car la fréquence de chaque classe est généralement inégale. Par exemple, un jeu de données peut contenir un grand nombre de classes sous-représentées, tandis que quelques classes disposent d’un volume de données largement suffisant. Toutefois, un modèle destiné à représenter ces données est généralement censé présenter des performances raisonnablement homogènes à travers les classes. L’introduction de pertes équilibrées par classe, ainsi que de méthodes avancées de rééchantillonnage et d’augmentation des données, figure parmi les meilleures pratiques pour atténuer le problème d’imbalance des données. Toutefois, la partie du problème relative aux classes sous-représentées doit faire appel à des connaissances supplémentaires afin de reconstruire l’information manquante.Dans ce travail, nous proposons une nouvelle approche pour traiter le problème à queue longue en enrichissant les classes sous-représentées dans l’espace des caractéristiques à l’aide des caractéristiques apprises à partir des classes bien représentées. Plus précisément, nous décomposons les caractéristiques de chaque classe en une composante générique par classe et une composante spécifique à la classe, en utilisant des cartes d’activation par classe. Des échantillons nouveaux pour les classes sous-représentées sont ensuite générés dynamiquement pendant les phases d’entraînement en combinant les caractéristiques spécifiques aux classes sous-représentées avec les caractéristiques génériques provenant des classes confondantes. Nos résultats obtenus sur plusieurs jeux de données, tels que iNaturalist, ImageNet-LT, Places-LT et une version à queue longue de CIFAR, démontrent des performances de pointe.