MetaSAug : Augmentation Sémantique Méta pour la Reconnaissance Visuelle à Longue Queue

Les jeux de données d'entraînement du monde réel présentent généralement une distribution en queue longue, dans laquelle plusieurs classes majoritaires comptent un nombre significativement plus élevé d'échantillons que les classes minoritaires restantes. Ce déséquilibre nuit aux performances des algorithmes d'apprentissage supervisé classiques conçus pour des jeux d'entraînement équilibrés. Dans cet article, nous abordons ce problème en enrichissant les classes minoritaires à l'aide d'une méthode récente d'augmentation de données sémantique implicite (ISDA), qui génère des échantillons augmentés diversifiés en translatant les caractéristiques profondes selon de nombreuses directions sémantiquement significatives. Notamment, comme ISDA estime les statistiques conditionnelles par classe afin d'obtenir des directions sémantiques, nous constatons qu'une telle estimation s'avère inefficace pour les classes minoritaires en raison du manque de données d'entraînement. À cet effet, nous proposons une nouvelle approche fondée sur l'apprentissage métacognitif pour apprendre automatiquement des directions sémantiques transformées. Plus précisément, la stratégie d'augmentation pendant l'entraînement est optimisée de manière dynamique, dans le but de minimiser la perte sur un petit ensemble de validation équilibré, approximé via une étape de mise à jour métacognitive. Des résultats expérimentaux étendus sur CIFAR-LT-10/100, ImageNet-LT, et iNaturalist 2017/2018 confirment l'efficacité de notre méthode.