HyperAIHyperAI
il y a 2 mois

Architecture récurrente efficace grâce à la parcimonie de l'activité et à la rétropropagation parcimonieuse dans le temps

Anand Subramoney; Khaleelulla Khan Nazeer; Mark Schöne; Christian Mayr; David Kappel
Architecture récurrente efficace grâce à la parcimonie de l'activité et à la rétropropagation parcimonieuse dans le temps
Résumé

Les réseaux de neurones récurrents (RNNs) sont particulièrement adaptés pour résoudre des tâches séquentielles dans les systèmes à ressources limitées grâce à leur expressivité et à leurs faibles exigences en matière de calcul. Cependant, il reste nécessaire de combler l'écart entre les capacités des RNNs en termes d'efficacité et de performance et les exigences des applications dans le monde réel. Les exigences en mémoire et en calcul qui découlent de la propagation des activations de tous les neurones à chaque pas de temps vers chaque neurone connecté, ainsi que la dépendance séquentielle des activations, contribuent à l'inefficacité de l'entraînement et de l'utilisation des RNNs. Nous proposons une solution inspirée par la dynamique neuronale biologique qui rend la communication entre les unités RNN éparse et discrète. Cette approche rend également le passage arrière avec la rétropropagation dans le temps (BPTT) éparse et efficace sur le plan computationnel. Notre modèle est basé sur l'unité récurrente à porte (GRU), que nous étendons avec des unités émettant des événements discrets pour la communication, déclenchés par un seuil, afin qu'aucune information ne soit transmise aux autres unités en l'absence d'événements. Nous montrons théoriquement que la communication entre les unités, et donc le calcul requis pour les passages avant et arrière, s'échelonne en fonction du nombre d'événements dans le réseau. Notre modèle atteint une efficacité sans compromettre les performances des tâches, démontrant une performance compétitive par rapport aux modèles de réseau récurrents d'avant-garde dans des tâches du monde réel, notamment la modélisation linguistique. Le mécanisme de parcimonie d'activité dynamique rend également notre modèle bien adapté aux nouvelles technologies matérielles néuromorphiques économes en énergie. Le code est disponible sur https://github.com/KhaleelKhan/EvNN/.

Architecture récurrente efficace grâce à la parcimonie de l'activité et à la rétropropagation parcimonieuse dans le temps | Articles de recherche récents | HyperAI