HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation linguistique avec des réseaux de neurones convolutionnels à portes

Yann N. Dauphin Angela Fan Michael Auli David Grangier

Résumé

L'approche prédominante en matière de modélisation linguistique jusqu'à présent repose sur les réseaux neuronaux récurrents. Leur succès dans cette tâche est souvent attribué à leur capacité à capturer un contexte sans limite. Dans cet article, nous développons une approche à contexte fini par le biais de convolutions empilées, qui peut être plus efficace car elle permet la parallélisation sur des jetons séquentiels. Nous proposons un nouveau mécanisme de porte simplifié qui surpasse celui d'Oord et al. (2016) et examinons l'impact des décisions architecturales clés. L'approche proposée atteint l'état de l'art sur le benchmark WikiText-103, malgré la présence de dépendances à long terme, ainsi que des résultats compétitifs sur le benchmark Google Billion Words. Notre modèle réduit la latence pour évaluer une phrase d'un ordre de grandeur par rapport à une base récurrente. À notre connaissance, c'est la première fois qu'une approche non récurrente est compétitive avec des modèles récurrents performants sur ces tâches linguistiques à grande échelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp