Échapper aux points col pour une généralisation efficace sur des données déséquilibrées par classe

Les jeux de données du monde réel présentent des déséquilibres de types et de degrés variés. Plusieurs techniques fondées sur le réajustement des poids et l’ajustement de la marge de la fonction de perte sont couramment utilisées pour améliorer les performances des réseaux de neurones, en particulier sur les classes minoritaires. Dans ce travail, nous analysons le problème de l’apprentissage avec déséquilibre de classes en examinant le paysage de perte des réseaux de neurones entraînés à l’aide de techniques basées sur le réajustement des poids et la marge. Plus précisément, nous étudions la densité spectrale du hessien de la fonction de perte par classe, ce qui nous permet d’observer que les poids du réseau convergent vers un point selle dans le paysage de perte des classes minoritaires. À la suite de cette observation, nous constatons que les méthodes d’optimisation conçues pour échapper aux points selles peuvent être efficacement exploitées pour améliorer la généralisation sur les classes minoritaires. Nous démontrons également théoriquement et empiriquement que la minimisation consciente de la raideur (Sharpness-Aware Minimization, SAM), une technique récente qui favorise la convergence vers des minima plats, peut être efficacement utilisée pour échapper aux points selles dans le cas des classes minoritaires. L’application de SAM entraîne une augmentation de 6,2 % de la précision sur les classes minoritaires par rapport à l’état de l’art de la fonction de perte Vector Scaling, conduisant à une amélioration moyenne globale de 4 % sur divers jeux de données déséquilibrés. Le code est disponible à l’adresse suivante : https://github.com/val-iisc/Saddle-LongTail.