Command Palette
Search for a command to run...
Anpassungsfähiger Aufmerksamkeitsbereich in Transformers
Anpassungsfähiger Aufmerksamkeitsbereich in Transformers
Sainbayar Sukhbaatar Edouard Grave Piotr Bojanowski Armand Joulin
Zusammenfassung
Wir schlagen einen neuen Selbst-Aufmerksamkeitsmechanismus vor, der seine optimale Aufmerksamkeitsspanne lernen kann. Dies ermöglicht es uns, die maximale Kontextgröße in Transformer-Modellen erheblich zu erweitern, während wir gleichzeitig die Kontrolle über ihren Speicherverbrauch und die Rechenzeit behalten. Wir demonstrieren die Effektivität unseres Ansatzes anhand der Aufgabe des Zeichen-Level-Sprachmodellierens, bei der wir durch die Verwendung einer maximalen Kontextgröße von 8.000 Zeichen (8k characters) Stand-der-Technik-Ergebnisse auf den Datensätzen text8 und enwiki8 erzielen.