vor einem Monat

Anpassungsfähiger Aufmerksamkeitsbereich in Transformers

Sainbayar Sukhbaatar; Edouard Grave; Piotr Bojanowski; Armand Joulin

Abstract

Wir schlagen einen neuen Selbst-Aufmerksamkeitsmechanismus vor, der seine optimale Aufmerksamkeitsspanne lernen kann. Dies ermöglicht es uns, die maximale Kontextgröße in Transformer-Modellen erheblich zu erweitern, während wir gleichzeitig die Kontrolle über ihren Speicherverbrauch und die Rechenzeit behalten. Wir demonstrieren die Effektivität unseres Ansatzes anhand der Aufgabe des Zeichen-Level-Sprachmodellierens, bei der wir durch die Verwendung einer maximalen Kontextgröße von 8.000 Zeichen (8k characters) Stand-der-Technik-Ergebnisse auf den Datensätzen text8 und enwiki8 erzielen.