HyperAIHyperAI
vor einem Monat

Transformer-XL: Aufmerksame Sprachmodelle über einen festen Kontext hinaus

Zihang Dai; Zhilin Yang; Yiming Yang; Jaime Carbonell; Quoc V. Le; Ruslan Salakhutdinov
Transformer-XL: Aufmerksame Sprachmodelle über einen festen Kontext hinaus
Abstract

Transformers haben das Potenzial, längere Abhängigkeiten zu lernen, sind aber im Kontext der Sprachmodellierung durch eine feste Länge begrenzt. Wir schlagen eine neuartige neuronale Architektur namens Transformer-XL vor, die es ermöglicht, Abhängigkeiten über eine feste Länge hinaus zu lernen, ohne die zeitliche Kohärenz zu stören. Diese Architektur umfasst ein Segment-Level-Rekurrenzmechanismus und ein neues Positionscodierungsschema. Unsere Methode ermöglicht nicht nur das Erfassen von längeren Abhängigkeiten, sondern löst auch das Problem der Kontextfragmentierung. Dadurch lernt Transformer-XL Abhängigkeiten, die um 80 % länger sind als bei RNNs und um 450 % länger als bei standardmäßigen Transformers. Er erzielt bessere Ergebnisse sowohl bei kurzen als auch bei langen Sequenzen und ist während der Auswertung bis zu 1800-mal schneller als standardmäßige Transformers. Bemerkenswerterweise verbessern wir die bisher besten Ergebnisse für bpc/Perplexität auf 0,99 bei enwiki8, 1,08 bei text8, 18,3 bei WikiText-103, 21,8 beim One Billion Word-Datensatz und 54,5 beim Penn Treebank (ohne Feinabstimmung). Wenn Transformer-XL nur mit WikiText-103 trainiert wird, gelingt es ihm, kohärente und originelle Textartikel mit Tausenden von Token zu generieren. Unser Code, vortrainierte Modelle und Hyperparameter sind in Tensorflow und PyTorch verfügbar.