HyperAIHyperAI
il y a 2 mois

Transformateurs Universels

Dehghani, Mostafa ; Gouws, Stephan ; Vinyals, Oriol ; Uszkoreit, Jakob ; Kaiser, Łukasz
Transformateurs Universels
Résumé

Les réseaux neuronaux récurrents (RNNs) traitent les données de manière séquentielle en mettant à jour leur état avec chaque nouveau point de données, et ont longtemps été le choix de facto pour les tâches de modélisation de séquences. Cependant, leur calcul intrinsèquement séquentiel les rend lents à entraîner. Les architectures à alimentation directe et convolutive ont récemment montré des résultats supérieurs sur certaines tâches de modélisation de séquences, comme la traduction automatique, avec l'avantage supplémentaire qu'elles traitent simultanément tous les entrants dans la séquence, ce qui facilite la parallélisation et accélère les temps d'entraînement. Malgré ces succès, cependant, des modèles de séquence populaires à alimentation directe comme le Transformer échouent à généraliser dans de nombreuses tâches simples que les modèles récurrents gèrent facilement, par exemple la copie de chaînes ou même des inférences logiques simples lorsque la longueur des chaînes ou des formules dépasse celle observée lors de l'entraînement. Nous proposons le Universal Transformer (UT), un modèle de séquence récurrent auto-attentif parallèle dans le temps qui peut être considéré comme une généralisation du modèle Transformer et qui aborde ces problèmes. Les UTs combinent la parallélisabilité et le champ perceptif global des modèles de séquence à alimentation directe comme le Transformer avec le biais inductif récurrent des RNNs. Nous ajoutons également un mécanisme d'arrêt dynamique par position et constatons qu'il améliore la précision sur plusieurs tâches. Contrairement au Transformer standard, sous certaines hypothèses, les UTs peuvent être démontrés comme étant Turing-complets. Nos expériences montrent que les UTs surpassent les Transformers standards sur une large gamme de tâches algorithmiques et de compréhension linguistique, y compris sur la tâche difficile de modélisation linguistique LAMBADA où les UTs atteignent un nouveau niveau d'excellence, ainsi que sur la traduction automatique où les UTs obtiennent une amélioration de 0,9 BLEU par rapport aux Transformers sur l'ensemble de données WMT14 En-De.

Transformateurs Universels | Articles de recherche récents | HyperAI