HyperAIHyperAI

Command Palette

Search for a command to run...

Hypothèse de densité des minima larges et planification du taux d'apprentissage exploration-exploitation

Nikhil Iyer V Thejas Nipun Kwatra Ramachandran Ramjee Muthian Sivathanu

Résumé

Plusieurs travaux soutiennent que les minima larges généralisent mieux que les minima étroits. Dans cet article, grâce à des expériences détaillées qui non seulement confirment les propriétés de généralisation des minima larges, mais aussi apportent des preuves empiriques d’une nouvelle hypothèse selon laquelle la densité des minima larges est probablement plus faible que celle des minima étroits. En nous inspirant de cette hypothèse, nous proposons un nouveau schéma d’apprentissage exploratoire-exploitation pour le taux d’apprentissage. Sur diverses bases de données d’images et de traitement du langage naturel, nous montrons que, par rapport à leurs bases de taux d’apprentissage initialement réglés à la main, notre schéma exploratoire-exploitation permet d’atteindre soit une précision absolue jusqu’à 0,84 % supérieure en utilisant le budget d’entraînement initial, soit une réduction jusqu’à 57 % du temps d’entraînement tout en conservant la précision rapportée initialement. Par exemple, nous obtenons une précision de pointe (state-of-the-art, SOTA) sur le jeu de données IWSLT’14 (DE-EN) en ne modifiant que le schéma du taux d’apprentissage d’un modèle hautement performant.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Hypothèse de densité des minima larges et planification du taux d'apprentissage exploration-exploitation | Articles | HyperAI