Perte équilibrée par classe basée sur le nombre effectif d'échantillons

Avec l'augmentation rapide des jeux de données à grande échelle et réels, il devient crucial d'aborder le problème de la distribution de données à queue longue (c'est-à-dire qu'une poignée de classes représente la majorité des données, tandis que la plupart des classes sont sous-représentées). Les solutions existantes adoptent généralement des stratégies de rééquilibrage des classes, telles que le rééchantillonnage et le répoidsage basés sur le nombre d'observations pour chaque classe. Dans ce travail, nous soutenons que lorsque le nombre d'échantillons augmente, le bénéfice supplémentaire apporté par un nouveau point de données diminuera. Nous introduisons un cadre théorique novateur pour mesurer la superposition des données en associant à chaque échantillon une petite région voisine plutôt qu'un seul point. Le nombre effectif d'échantillons est défini comme le volume des échantillons et peut être calculé par une formule simple $(1-β^{n})/(1-β)$, où $n$ est le nombre d'échantillons et $β \in [0,1)$ est un hyperparamètre. Nous concevons un schéma de répoidsage qui utilise le nombre effectif d'échantillons pour chaque classe afin de rééquilibrer la perte, ce qui permet d'obtenir une perte équilibrée entre les classes. Des expériences approfondies sont menées sur des jeux de données CIFAR artificiellement induits et sur des jeux de données à grande échelle tels qu'ImageNet et iNaturalist. Nos résultats montrent que lorsqu'un réseau est entraîné avec la perte équilibrée entre les classes proposée, il est capable d'obtenir des gains de performance significatifs sur les jeux de données à queue longue.