HyperAIHyperAI
il y a 9 jours

Reconnaissance visuelle à queue longue par ajustement du logit brumique gaussien

{Yang Lu, Yiu-ming Cheung, Mengke Li}
Reconnaissance visuelle à queue longue par ajustement du logit brumique gaussien
Résumé

Les données à queue longue restent un défi majeur pour les réseaux neuronaux profonds, même si ceux-ci ont connu un grand succès sur des données équilibrées. Nous observons que l’entraînement classique sur des données à queue longue avec une perte d’entropie croisée provoque une compression sévère de la distribution spatiale des classes riches en instances (classes « head »), au détriment des classes rares (classes « tail »), ce qui rend difficile la classification des échantillons appartenant aux classes rares. En outre, la perte d’entropie croisée originale ne permet qu’une propagation limitée du gradient, car le gradient sous forme de softmax tend rapidement vers zéro lorsque la différence des logit augmente. Ce phénomène est connu sous le nom de saturation du softmax. Bien qu’il soit défavorable à l’entraînement sur des données équilibrées, il peut être exploité pour ajuster la validité des échantillons dans le cadre de données à queue longue, permettant ainsi de corriger l’espace d’embeddings déformé typique des problèmes à queue longue. À cette fin, nous proposons une méthode d’ajustement des logit basée sur un nuage gaussien, consistant à perturber les logit de différentes classes par une perturbation gaussienne de amplitude variable. Nous définissons l’amplitude de cette perturbation comme la « taille du nuage » (cloud size) et fixons des tailles relativement grandes pour les classes rares. Une taille de nuage importante réduit la saturation du softmax, rendant ainsi les échantillons des classes rares plus actifs et élargissant l’espace d’embeddings. Pour atténuer le biais introduit par le classifieur, nous proposons également une stratégie d’échantillonnage basée sur le nombre effectif par classe, combinée à un re-entraînement du classifieur. Des expériences étendues sur des jeux de données standard confirment la supériorité de la méthode proposée. Le code source est disponible à l’adresse suivante : https://github.com/Keke921/GCLLoss.