Formation de réseaux profonds sans taux d'apprentissage grâce au pari sur les pièces

Les méthodes d'apprentissage profond atteignent des performances de pointe dans de nombreux scénarios d'application. Cependant, ces méthodes nécessitent un ajustement important des hyperparamètres pour obtenir les meilleurs résultats. En particulier, l'ajustement des taux d'apprentissage dans le processus d'optimisation stochastique reste l'un des principaux goulets d'étranglement. Dans cet article, nous proposons une nouvelle procédure de descente de gradient stochastique pour les réseaux profonds qui ne nécessite aucun réglage du taux d'apprentissage. Contrairement aux méthodes précédentes, nous n'adaptons pas les taux d'apprentissage et nous ne faisons pas usage de la courbure supposée de la fonction objectif. Au lieu de cela, nous ramenons le processus d'optimisation à un jeu de pari sur une pièce (coin) et proposons un algorithme optimal sans taux d'apprentissage pour cette situation. La convergence théorique est prouvée pour les fonctions convexes et quasi-convexes, et des preuves empiriques montrent l'avantage de notre algorithme par rapport aux algorithmes populaires de gradient stochastique.