il y a 10 jours

Perte équilibrée par difficulté par classe pour résoudre le déséquilibre de classes

Saptarshi Sinha, Hiroki Ohashi, Katsuyuki Nakamura

Résumé

L’imbalanced des classes constitue l’un des principaux défis rencontrés dans les jeux de données du monde réel, où un petit nombre de classes (dites classes majoritaires) comptent beaucoup plus d’échantillons que les autres (dites classes minoritaires). L’apprentissage de réseaux neuronaux profonds à partir de tels jeux de données conduit généralement à des performances biaisées en faveur des classes majoritaires. La plupart des travaux antérieurs tentent de résoudre ce problème en attribuant des poids plus élevés aux classes minoritaires par diverses méthodes (par exemple, rééchantillonnage des données, apprentissage sensible au coût). Toutefois, nous affirmons que le nombre de données d’entraînement disponibles ne constitue pas toujours un indicateur fiable pour déterminer la stratégie de pondération, car certaines classes minoritaires peuvent être suffisamment représentées même avec un petit nombre d’échantillons. Un surpondération de ces échantillons peut entraîner une baisse de la performance globale du modèle. Nous soutenons que la « difficulté » perçue par le modèle pour chaque classe est un facteur plus pertinent pour déterminer la pondération. À cet égard, nous proposons une nouvelle fonction de perte nommée Class-wise Difficulty-Balanced loss, ou perte CDB, qui attribue dynamiquement des poids à chaque échantillon en fonction de la difficulté de la classe à laquelle il appartient. À noter que ces poids sont ajustés de manière dynamique au fil de l’apprentissage, car la difficulté perçue par le modèle peut évoluer au cours du processus d’entraînement. Des expériences étendues ont été menées sur des jeux de données d’images (MNIST artificiellement déséquilibré, CIFAR à queue longue, ImageNet-LT) ainsi que sur des jeux de données vidéo (EGTEA). Les résultats démontrent que la perte CDB surpasse de manière cohérente les fonctions de perte récemment proposées sur des jeux de données déséquilibrés, indépendamment du type de données (image ou vidéo).