HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de séquences à séquences par convolution

Jonas Gehring; Michael Auli; David Grangier; Denis Yarats; Yann N. Dauphin

Résumé

L'approche prédominante pour l'apprentissage séquence à séquence consiste à mapper une séquence d'entrée à une séquence de sortie de longueur variable à travers des réseaux neuronaux récurrents. Nous présentons une architecture basée uniquement sur des réseaux neuronaux convolutifs. Par rapport aux modèles récurrents, les calculs sur tous les éléments peuvent être entièrement parallélisés lors de l'entraînement et l'optimisation est plus facile car le nombre de non-linéarités est fixe et indépendant de la longueur de l'entrée. Notre utilisation d'unités linéaires avec portes facilite la propagation du gradient, et nous équipons chaque couche du décodeur d'un module d'attention distinct. Nous surpassons la précision du modèle LSTM profond de Wu et al. (2016) dans les traductions WMT'14 anglais-allemand et WMT'14 anglais-français, avec une vitesse supérieure d'un ordre de grandeur, tant sur GPU que sur CPU.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage de séquences à séquences par convolution | Articles | HyperAI