Une analyse unifiée de la généralisation du rééquilibrage et de l’ajustement des logit pour l’apprentissage déséquilibré. Article avec code

Les jeux de données du monde réel sont généralement déséquilibrés au sens où seules quelques classes disposent d’un grand nombre d’échantillons, tandis que de nombreuses autres classes sont représentées par un petit nombre d’exemples. En conséquence, un processus d’apprentissage naïf basé sur la minimisation de l’erreur empirique (ERM) tend à être biaisé en faveur des classes majoritaires, rendant difficile la généralisation aux classes minoritaires. Pour remédier à ce problème, une approche simple mais efficace consiste à modifier la fonction de perte afin de mettre l’accent sur l’apprentissage des classes minoritaires, par exemple en répésant les pertes ou en ajustant les logits à l’aide de termes dépendants des classes. Toutefois, l’analyse de généralisation existante de ces pertes reste encore trop grossière et fragmentée, incapable d’expliquer certains résultats empiriques observés. Afin de combler cette lacune, nous proposons une nouvelle technique appelée contraction dépendante des données, permettant de capturer la manière dont ces pertes modifiées traitent les différentes classes. Sur la base de cette technique, nous établissons une borne de généralisation fine pour l’apprentissage déséquilibré, qui permet de révéler de manière unifiée le mécanisme sous-jacent des stratégies de répésage et d’ajustement des logits. Par ailleurs, un algorithme d’apprentissage fondé sur des principes théoriques est développé à partir de ces insights. Enfin, les résultats expérimentaux sur des jeux de données standard non seulement confirment les résultats théoriques, mais démontrent également l’efficacité du méthode proposée.