Réseaux neuronaux résiduels à moment

L'entraînement des réseaux de neurones résiduels profonds (ResNets) par rétropropagation comporte un coût mémoire qui croît linéairement avec la profondeur du réseau. Une manière de contourner ce problème consiste à utiliser des architectures réversibles. Dans cet article, nous proposons de modifier la règle de propagation avant d’un ResNet en introduisant un terme de momentum. Les réseaux résultants, appelés Momentum ResNets, sont réversibles. Contrairement aux architectures réversibles précédentes, ils peuvent être utilisés comme remplacement direct pour n’importe quel bloc ResNet existant. Nous montrons que les Momentum ResNets peuvent être interprétés dans le régime de pas infinitésimal comme des équations différentielles ordinaires du second ordre (ODE), et nous caractérisons exactement comment l’ajout de momentum accroît progressivement les capacités de représentation des Momentum ResNets. Notre analyse révèle que les Momentum ResNets peuvent apprendre n’importe quelle application linéaire à un facteur multiplicatif près, tandis que les ResNets ne le peuvent pas. Dans un cadre d’apprentissage de l’optimisation, où une convergence vers un point fixe est requise, nous démontrons théoriquement et empiriquement que notre méthode réussit, alors que les architectures réversibles existantes échouent. Nous montrons sur les jeux de données CIFAR et ImageNet que les Momentum ResNets atteignent une précision équivalente à celle des ResNets, tout en présentant un empreinte mémoire bien plus faible, et démontrons que les Momentum ResNets pré-entraînés sont prometteurs pour le fine-tuning de modèles.