Mesures de complexité architecturale des réseaux de neurones récurrents

Dans cet article, nous analysons systématiquement les architectures de connexion des réseaux de neurones récurrents (RNNs). Notre contribution principale est double : premièrement, nous présentons un cadre rigoureux basé sur la théorie des graphes pour décrire les architectures de connexion des RNNs en général. Deuxièmement, nous proposons trois mesures de complexité architecturale pour les RNNs : (a) la profondeur récurrente, qui capture la complexité non-linéaire temporelle du RNN ; (b) la profondeur feedforward, qui capture la non-linéarité locale entre l'entrée et la sortie (similaire à la « profondeur » dans les réseaux de neurones feedforward (FNNs)) ; et (c) le coefficient de saut récurrent, qui capture la vitesse à laquelle l'information se propage au fil du temps. Nous prouvons rigoureusement l'existence et le calculabilité de chaque mesure. Nos résultats expérimentaux montrent que les RNNs peuvent bénéficier d'une plus grande profondeur récurrente et feedforward. Nous démontrons également que l'augmentation du coefficient de saut récurrent offre des améliorations des performances sur les problèmes de dépendance à long terme.