HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration du mécanisme de porte des réseaux neuronaux récurrents

Albert Gu; Caglar Gulcehre; Tom Le Paine; Matt Hoffman; Razvan Pascanu

Résumé

Les mécanismes de portes sont largement utilisés dans les modèles de réseaux neuronaux, où ils permettent aux gradients de rétropropager plus facilement à travers la profondeur ou le temps. Cependant, leur propriété de saturation introduit ses propres problèmes. Par exemple, dans les modèles récurrents, ces portes doivent avoir des sorties proches de 1 pour propager l'information sur de longues périodes temporelles, ce qui nécessite qu'elles fonctionnent dans leur régime de saturation et entrave l'apprentissage basé sur les gradients du mécanisme de portes. Nous abordons ce problème en dérivant deux modifications synergiques du mécanisme de portes standard qui sont faciles à mettre en œuvre, n'introduisent aucun hyperparamètre supplémentaire et améliorent l'apprentissage des portes lorsqu'elles sont proches de la saturation. Nous montrons comment ces modifications sont liées à et améliorent d'autres mécanismes de portes proposés récemment, tels que l'initialisation chronologique (chrono initialization) et les Neurones Ordonnés (Ordered Neurons). Expérimentalement, nos mécanismes simples de portes améliorent robustement les performances des modèles récurrents sur une gamme d'applications, notamment des tâches synthétiques de mémorisation, la classification séquentielle d'images, la modélisation linguistique et l'apprentissage par renforcement, particulièrement lorsque des dépendances à long terme sont impliquées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration du mécanisme de porte des réseaux neuronaux récurrents | Articles | HyperAI