HyperAIHyperAI
il y a 17 jours

Descente de gradient stochastique biaisée par l'attention

Qi Qi, Yi Xu, Rong Jin, Wotao Yin, Tianbao Yang
Descente de gradient stochastique biaisée par l'attention
Résumé

Dans cet article, nous proposons une méthode simple mais efficace et prouvable (nommée ABSGD) pour traiter les problèmes d'imbalanced data ou de bruit de label dans l'apprentissage profond. Notre méthode constitue une modification légère de l'algorithme SGD à momentum, où nous attribuons un poids d'importance individuel à chaque échantillon du mini-batch. Ce poids au niveau individuel est proportionnel de manière systématique à l'exponentielle d'une valeur de perte mise à l'échelle, laquelle est interprétée comme un paramètre de régularisation dans le cadre de l'optimisation robuste par rapport à la distribution (DRO). Selon que le facteur d'échelle est positif ou négatif, ABSGD est garantie de converger vers un point stationnaire d'un problème DRO min-max ou min-min régularisé par l'information, respectivement. Par rapport aux méthodes existantes de pondération au niveau des classes, notre approche permet de capturer la diversité entre les exemples individuels au sein de chaque classe. En comparaison avec les méthodes existantes de pondération au niveau individuel basées sur l'apprentissage métas, qui nécessitent trois passages arrière pour calculer les gradients stochastiques sur mini-batch, notre méthode est plus efficace, nécessitant uniquement un seul passage arrière par itération, comme dans les méthodes standards d'apprentissage profond. ABSGD est suffisamment flexible pour être combinée avec d'autres pertes robustes sans coût supplémentaire. Nos études expérimentales sur plusieurs jeux de données de référence démontrent l'efficacité de la méthode proposée. \footnote{Code disponible à l'adresse : \url{https://github.com/qiqi-helloworld/ABSGD/}}