vor einem Monat
Anpassungsfähiger Aufmerksamkeitsbereich in Transformers
Sainbayar Sukhbaatar; Edouard Grave; Piotr Bojanowski; Armand Joulin

Abstract
Wir schlagen einen neuen Selbst-Aufmerksamkeitsmechanismus vor, der seine optimale Aufmerksamkeitsspanne lernen kann. Dies ermöglicht es uns, die maximale Kontextgröße in Transformer-Modellen erheblich zu erweitern, während wir gleichzeitig die Kontrolle über ihren Speicherverbrauch und die Rechenzeit behalten. Wir demonstrieren die Effektivität unseres Ansatzes anhand der Aufgabe des Zeichen-Level-Sprachmodellierens, bei der wir durch die Verwendung einer maximalen Kontextgröße von 8.000 Zeichen (8k characters) Stand-der-Technik-Ergebnisse auf den Datensätzen text8 und enwiki8 erzielen.