HyperAIHyperAI

Command Palette

Search for a command to run...

Au-delà du Reptile : maximisation méta-apprise du produit scalaire entre les gradients pour une régularisation single-task améliorée

WonHo Ryu Sai Chetan Chinthakindi Akhil Kedia

Résumé

Les algorithmes de meta-apprentissage tels que MAML, Reptile et FOMAML ont permis d'améliorer les performances de nombreux modèles neuronaux. La principale différence entre la descente de gradient standard et ces approches de meta-apprentissage réside dans le fait qu’elles intègrent, comme composante mineure, le gradient visant à maximiser le produit scalaire entre les gradients de différents lots, ce qui conduit à une meilleure généralisation. Des travaux antérieurs ont montré que des gradients alignés sont corrélés à une meilleure généralisation, et ont également utilisé l’algorithme Reptile dans un cadre mono-tâche afin d’améliorer la généralisation. Inspirés par ces approches dans un cadre mono-tâche, ce papier propose d’utiliser l’algorithme à différences finies du premier ordre pour calculer ce gradient à partir du produit scalaire des gradients, permettant ainsi un contrôle explicite du poids relatif de cette composante par rapport aux gradients standards. Nous utilisons ce gradient comme technique de régularisation, ce qui conduit à un alignement accru des gradients entre différents lots. Grâce à l’approximation par différences finies, notre méthode n’entraîne pas la charge mémoire O(n²) associée au calcul naïf de la hessienne, et peut être facilement appliquée à des modèles de grande taille avec des tailles de lot importantes. Notre approche atteint des performances de pointe sur le jeu de données Gigaword, et montre des améliorations sur plusieurs autres jeux de données tels que SQuAD-v2.0, Quasar-T, NewsQA et l’ensemble des données SuperGLUE, pour une variété de modèles incluant BERT, RoBERTa et ELECTRA. Notre méthode surpasse également les approches précédentes basées sur Reptile et FOMAML lorsqu’elles sont utilisées comme technique de régularisation, dans des contextes à une seule tâche comme à plusieurs tâches. Enfin, notre méthode est indépendante du modèle et n’introduit aucun paramètre additionnel à apprendre.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp