Un contrôle de réalité pour les optimiseurs à grand lot : des optimiseurs traditionnels et génériques suffisent pour toutes les tailles de lot

Récemment, les algorithmes d'optimisation LARS et LAMB ont été proposés pour accélérer l'entraînement des réseaux de neurones en utilisant des tailles de lot élevées. LARS et LAMB introduisent une normalisation par couche dans les règles de mise à jour des méthodes à momentum de Heavy-ball et d'Adam, respectivement, et sont devenus populaires dans des benchmarks emblématiques ainsi que dans des bibliothèques de deep learning. Toutefois, en l'absence de comparaisons équitables avec les algorithmes d'optimisation standards, il demeure une question ouverte quant à l'avantage réel de LARS et LAMB par rapport aux algorithmes traditionnels et génériques. Dans ce travail, nous démontrons que des algorithmes d'optimisation standards tels que le momentum de Nesterov et Adam peuvent atteindre ou dépasser les performances de LARS et LAMB lorsqu'on utilise de grandes tailles de lot. Nos résultats établissent de nouvelles références plus robustes pour les comparaisons futures à ces tailles de lot, tout en éclairant les difficultés inhérentes à la comparaison des algorithmes d'optimisation pour l'entraînement des réseaux de neurones en général.