HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer-XL: Aufmerksame Sprachmodelle über einen festen Kontext hinaus

Rong Yang Qian Yu Ruoming Pang Zihang Dai Yonghui Wu Quoc V. Le

Zusammenfassung

Transformers haben das Potenzial, längere Abhängigkeiten zu lernen, sind aber im Kontext der Sprachmodellierung durch eine feste Länge begrenzt. Wir schlagen eine neuartige neuronale Architektur namens Transformer-XL vor, die es ermöglicht, Abhängigkeiten über eine feste Länge hinaus zu lernen, ohne die zeitliche Kohärenz zu stören. Diese Architektur umfasst ein Segment-Level-Rekurrenzmechanismus und ein neues Positionscodierungsschema. Unsere Methode ermöglicht nicht nur das Erfassen von längeren Abhängigkeiten, sondern löst auch das Problem der Kontextfragmentierung. Dadurch lernt Transformer-XL Abhängigkeiten, die um 80 % länger sind als bei RNNs und um 450 % länger als bei standardmäßigen Transformers. Er erzielt bessere Ergebnisse sowohl bei kurzen als auch bei langen Sequenzen und ist während der Auswertung bis zu 1800-mal schneller als standardmäßige Transformers. Bemerkenswerterweise verbessern wir die bisher besten Ergebnisse für bpc/Perplexität auf 0,99 bei enwiki8, 1,08 bei text8, 18,3 bei WikiText-103, 21,8 beim One Billion Word-Datensatz und 54,5 beim Penn Treebank (ohne Feinabstimmung). Wenn Transformer-XL nur mit WikiText-103 trainiert wird, gelingt es ihm, kohärente und originelle Textartikel mit Tausenden von Token zu generieren. Unser Code, vortrainierte Modelle und Hyperparameter sind in Tensorflow und PyTorch verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp