il y a 3 mois

Au-delà du Reptile : maximisation méta-apprise du produit scalaire entre les gradients pour une régularisation single-task améliorée

{WonHo Ryu, Sai Chetan Chinthakindi, Akhil Kedia}

Résumé

Les algorithmes de meta-apprentissage tels que MAML, Reptile et FOMAML ont permis d'améliorer les performances de nombreux modèles neuronaux. La principale différence entre la descente de gradient standard et ces approches de meta-apprentissage réside dans le fait qu’elles intègrent, comme composante mineure, le gradient visant à maximiser le produit scalaire entre les gradients de différents lots, ce qui conduit à une meilleure généralisation. Des travaux antérieurs ont montré que des gradients alignés sont corrélés à une meilleure généralisation, et ont également utilisé l’algorithme Reptile dans un cadre mono-tâche afin d’améliorer la généralisation. Inspirés par ces approches dans un cadre mono-tâche, ce papier propose d’utiliser l’algorithme à différences finies du premier ordre pour calculer ce gradient à partir du produit scalaire des gradients, permettant ainsi un contrôle explicite du poids relatif de cette composante par rapport aux gradients standards. Nous utilisons ce gradient comme technique de régularisation, ce qui conduit à un alignement accru des gradients entre différents lots. Grâce à l’approximation par différences finies, notre méthode n’entraîne pas la charge mémoire O(n²) associée au calcul naïf de la hessienne, et peut être facilement appliquée à des modèles de grande taille avec des tailles de lot importantes. Notre approche atteint des performances de pointe sur le jeu de données Gigaword, et montre des améliorations sur plusieurs autres jeux de données tels que SQuAD-v2.0, Quasar-T, NewsQA et l’ensemble des données SuperGLUE, pour une variété de modèles incluant BERT, RoBERTa et ELECTRA. Notre méthode surpasse également les approches précédentes basées sur Reptile et FOMAML lorsqu’elles sont utilisées comme technique de régularisation, dans des contextes à une seule tâche comme à plusieurs tâches. Enfin, notre méthode est indépendante du modèle et n’introduit aucun paramètre additionnel à apprendre.