HyperAIHyperAI

Command Palette

Search for a command to run...

Transformers très profonds pour la traduction automatique neurale

Xiaodong Liu Kevin Duh Liyuan Liu Jianfeng Gao

Résumé

Nous explorons l'application de modèles Transformer très profonds pour la traduction automatique neurale (NMT). Grâce à une technique d'initialisation simple mais efficace, qui stabilise l'entraînement, nous démontrons qu'il est réalisable de concevoir des modèles basés sur le Transformer standard comprenant jusqu'à 60 couches d'encodeur et 12 couches de décodeur. Ces modèles profonds surpassent leurs homologues de référence à 6 couches de manière significative, avec une amélioration pouvant atteindre 2,5 BLEU, et atteignent de nouveaux résultats d'état de l'art sur les benchmarks WMT14 Anglais-Français (43,8 BLEU et 46,4 BLEU avec traduction par rétro-traduction) ainsi que WMT14 Anglais-Allemand (30,1 BLEU). Le code source et les modèles entraînés seront disponibles publiquement à l'adresse suivante : https://github.com/namisan/exdeep-nmt.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp