il y a 2 mois

Architectures réversibles pour des réseaux neuronaux résiduels arbitrairement profonds

Bo Chang; Lili Meng; Eldad Haber; Lars Ruthotto; David Begert; Elliot Holtham

Résumé

Récemment, les réseaux de neurones résiduels profonds ont été appliqués avec succès dans de nombreuses tâches de vision par ordinateur et de traitement du langage naturel, améliorant les performances de pointe grâce à des architectures plus profondes et plus larges. Dans ce travail, nous interprétons les réseaux de neurones résiduels profonds comme des équations différentielles ordinaires (ODEs), qui ont été étudiées depuis longtemps en mathématiques et en physique avec un riche héritage théorique et empirique. À partir de cette interprétation, nous développons un cadre théorique sur la stabilité et la réversibilité des réseaux de neurones profonds, et dérivons trois architectures de réseaux de neurones réversibles qui peuvent théoriquement atteindre une profondeur arbitraire. La propriété de réversibilité permet une mise en œuvre efficace en termes de mémoire, qui n'a pas besoin de stocker les activations pour la plupart des couches cachées. Couplée à la stabilité de nos architectures, cela permet d'entraîner des réseaux plus profonds en utilisant seulement des ressources informatiques modestes. Nous fournissons à la fois des analyses théoriques et des résultats empiriques. Les résultats expérimentaux démontrent l'efficacité de nos architectures face à plusieurs lignes directrices solides sur CIFAR-10, CIFAR-100 et STL-10, avec une performance égale ou supérieure à l'état de l'art. De plus, nous montrons que nos architectures produisent des résultats supérieurs lorsqu'elles sont entraînées avec moins de données d'entraînement.