Comment entraîner votre ODE neuronale : le monde de la régularisation du jacobien et de la cinétique

L’entraînement des ODE neuronales sur de grands ensembles de données n’a pas été réalisable jusqu’à présent en raison de la nécessité de permettre à l’algorithme numérique adaptatif de résolution d’ODE d’ajuster sa taille de pas à des valeurs très faibles. En pratique, cela conduit à des dynamiques équivalentes à celles de plusieurs centaines, voire milliers de couches. Dans cet article, nous surmontons cette difficulté apparente en proposant une combinaison théoriquement fondée de régularisations issues du transport optimal et de la stabilité, qui encouragent les ODE neuronales à privilégier des dynamiques plus simples parmi toutes celles qui résolvent efficacement un problème. Des dynamiques plus simples entraînent une convergence plus rapide et un nombre réduit de discrétisations de l’algorithme de résolution, réduisant considérablement le temps de calcul réel (wall-clock time) sans perte de performance. Notre approche permet d’entraîner des modèles génératifs basés sur les ODE neuronales jusqu’à atteindre la même performance que les dynamiques non régularisées, tout en réduisant fortement le temps d’entraînement. Cela rapproche les ODE neuronales de leur application pratique à grande échelle.