HyperAIHyperAI
il y a un mois

Modélisation linguistique avec des réseaux de neurones convolutionnels à portes

Yann N. Dauphin; Angela Fan; Michael Auli; David Grangier
Modélisation linguistique avec des réseaux de neurones convolutionnels à portes
Résumé

L'approche prédominante en matière de modélisation linguistique jusqu'à présent repose sur les réseaux neuronaux récurrents. Leur succès dans cette tâche est souvent attribué à leur capacité à capturer un contexte sans limite. Dans cet article, nous développons une approche à contexte fini par le biais de convolutions empilées, qui peut être plus efficace car elle permet la parallélisation sur des jetons séquentiels. Nous proposons un nouveau mécanisme de porte simplifié qui surpasse celui d'Oord et al. (2016) et examinons l'impact des décisions architecturales clés. L'approche proposée atteint l'état de l'art sur le benchmark WikiText-103, malgré la présence de dépendances à long terme, ainsi que des résultats compétitifs sur le benchmark Google Billion Words. Notre modèle réduit la latence pour évaluer une phrase d'un ordre de grandeur par rapport à une base récurrente. À notre connaissance, c'est la première fois qu'une approche non récurrente est compétitive avec des modèles récurrents performants sur ces tâches linguistiques à grande échelle.