HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateurs Universels

Mostafa Dehghani*† Stephan Gouws* Oriol Vinyals Jakob Uszkoreit Łukasz Kaiser

Résumé

Les réseaux neuronaux récurrents (RNNs) traitent les données de manière séquentielle en mettant à jour leur état avec chaque nouveau point de données, et ont longtemps été le choix de facto pour les tâches de modélisation de séquences. Cependant, leur calcul intrinsèquement séquentiel les rend lents à entraîner. Les architectures à alimentation directe et convolutive ont récemment montré des résultats supérieurs sur certaines tâches de modélisation de séquences, comme la traduction automatique, avec l'avantage supplémentaire qu'elles traitent simultanément tous les entrants dans la séquence, ce qui facilite la parallélisation et accélère les temps d'entraînement. Malgré ces succès, cependant, des modèles de séquence populaires à alimentation directe comme le Transformer échouent à généraliser dans de nombreuses tâches simples que les modèles récurrents gèrent facilement, par exemple la copie de chaînes ou même des inférences logiques simples lorsque la longueur des chaînes ou des formules dépasse celle observée lors de l'entraînement. Nous proposons le Universal Transformer (UT), un modèle de séquence récurrent auto-attentif parallèle dans le temps qui peut être considéré comme une généralisation du modèle Transformer et qui aborde ces problèmes. Les UTs combinent la parallélisabilité et le champ perceptif global des modèles de séquence à alimentation directe comme le Transformer avec le biais inductif récurrent des RNNs. Nous ajoutons également un mécanisme d'arrêt dynamique par position et constatons qu'il améliore la précision sur plusieurs tâches. Contrairement au Transformer standard, sous certaines hypothèses, les UTs peuvent être démontrés comme étant Turing-complets. Nos expériences montrent que les UTs surpassent les Transformers standards sur une large gamme de tâches algorithmiques et de compréhension linguistique, y compris sur la tâche difficile de modélisation linguistique LAMBADA où les UTs atteignent un nouveau niveau d'excellence, ainsi que sur la traduction automatique où les UTs obtiennent une amélioration de 0,9 BLEU par rapport aux Transformers sur l'ensemble de données WMT14 En-De.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformateurs Universels | Articles | HyperAI