Hypothèse de densité des minima larges et planification du taux d'apprentissage exploration-exploitation

Plusieurs travaux soutiennent que les minima larges généralisent mieux que les minima étroits. Dans cet article, grâce à des expériences détaillées qui non seulement confirment les propriétés de généralisation des minima larges, mais aussi apportent des preuves empiriques d’une nouvelle hypothèse selon laquelle la densité des minima larges est probablement plus faible que celle des minima étroits. En nous inspirant de cette hypothèse, nous proposons un nouveau schéma d’apprentissage exploratoire-exploitation pour le taux d’apprentissage. Sur diverses bases de données d’images et de traitement du langage naturel, nous montrons que, par rapport à leurs bases de taux d’apprentissage initialement réglés à la main, notre schéma exploratoire-exploitation permet d’atteindre soit une précision absolue jusqu’à 0,84 % supérieure en utilisant le budget d’entraînement initial, soit une réduction jusqu’à 57 % du temps d’entraînement tout en conservant la précision rapportée initialement. Par exemple, nous obtenons une précision de pointe (state-of-the-art, SOTA) sur le jeu de données IWSLT’14 (DE-EN) en ne modifiant que le schéma du taux d’apprentissage d’un modèle hautement performant.