il y a 2 mois

Réseaux de Neurones Récursifs Tronqués

Zeping Yu; Gongshen Liu

Résumé

Les réseaux de neurones récurrents (RNR) ont connu un grand succès dans de nombreuses tâches de traitement du langage naturel (NLP). Cependant, en raison de leur structure récurrente, ils présentent des difficultés pour la parallélisation, ce qui rend le temps d'entraînement des RNR considérablement long. Dans cet article, nous introduisons les réseaux de neurones récurrents tranchés (SRNR), qui peuvent être parallélisés en découpant les séquences en plusieurs sous-séquences. Les SRNR ont la capacité d'obtenir des informations de haut niveau à travers plusieurs couches avec peu de paramètres supplémentaires. Nous démontrons que le RNR standard est un cas particulier du SRNR lorsque nous utilisons des fonctions d'activation linéaires. Sans modifier les unités récurrentes, les SRNR sont 136 fois plus rapides que les RNR standards et peuvent être encore plus rapides lors de l'entraînement de séquences plus longues. Des expériences menées sur six grands ensembles de données d'analyse de sentiments montrent que les SRNR obtiennent de meilleures performances que les RNR standards.