La majorité peut aider la minorité : suréchantillonnage de la minorité riche en contexte pour la classification à queue longue

Le problème des données déséquilibrées réside dans la dégradation de la performance de généralisation du classificateur, due à l'insuffisance de données provenant des classes minoritaires. Dans cet article, nous proposons une nouvelle méthode de suréchantillonnage des classes minoritaires, visant à enrichir la diversité des échantillons minoritaires en exploitant le contexte riche des classes majoritaires comme images de fond. Pour promouvoir la diversité des échantillons minoritaires, notre idée centrale consiste à superposer une image provenant d'une classe minoritaire sur une image à fort contexte issue d'une classe majoritaire, utilisée comme fond. Notre méthode est simple et peut être facilement combinée avec les méthodes existantes de reconnaissance en régime longue queue. Nous démontrons empiriquement l'efficacité de la méthode de suréchantillonnage proposée à travers des expériences étendues et des études d'ablation. Sans aucune modification d'architecture ni recours à des algorithmes complexes, notre approche atteint des performances de pointe sur diverses benchmarks de classification à queue longue. Le code source est disponible à l'adresse suivante : https://github.com/naver-ai/cmo.