Amélioration du mécanisme de porte des réseaux neuronaux récurrents

Les mécanismes de portes sont largement utilisés dans les modèles de réseaux neuronaux, où ils permettent aux gradients de rétropropager plus facilement à travers la profondeur ou le temps. Cependant, leur propriété de saturation introduit ses propres problèmes. Par exemple, dans les modèles récurrents, ces portes doivent avoir des sorties proches de 1 pour propager l'information sur de longues périodes temporelles, ce qui nécessite qu'elles fonctionnent dans leur régime de saturation et entrave l'apprentissage basé sur les gradients du mécanisme de portes. Nous abordons ce problème en dérivant deux modifications synergiques du mécanisme de portes standard qui sont faciles à mettre en œuvre, n'introduisent aucun hyperparamètre supplémentaire et améliorent l'apprentissage des portes lorsqu'elles sont proches de la saturation. Nous montrons comment ces modifications sont liées à et améliorent d'autres mécanismes de portes proposés récemment, tels que l'initialisation chronologique (chrono initialization) et les Neurones Ordonnés (Ordered Neurons). Expérimentalement, nos mécanismes simples de portes améliorent robustement les performances des modèles récurrents sur une gamme d'applications, notamment des tâches synthétiques de mémorisation, la classification séquentielle d'images, la modélisation linguistique et l'apprentissage par renforcement, particulièrement lorsque des dépendances à long terme sont impliquées.