UnICORNN : Un modèle récurrent pour l'apprentissage de dépendances temporelles très longues

La conception de réseaux de neurones récurrents (RNN) capables de traiter avec précision des entrées séquentielles à longues dépendances temporelles est très complexe en raison du problème des gradients explosifs et évanescent. Pour surmonter cette difficulté, nous proposons une nouvelle architecture de RNN basée sur une discrétisation préservant la structure d'un système hamiltonien d'équations différentielles ordinaires du second ordre modélisant des réseaux d'oscillateurs. Le RNN résultant est rapide, inversible (dans le temps), efficace en termes de mémoire, et nous établissons des bornes rigoureuses sur les gradients de l'état caché pour prouver l'atténuation du problème des gradients explosifs et évanescent. Une série d'expériences est présentée pour démontrer que le RNN proposé offre des performances de pointe sur diverses tâches d'apprentissage impliquant des dépendances temporelles (très) longues.