HyperAIHyperAI

Command Palette

Search for a command to run...

Anpassungsfähiger Aufmerksamkeitsbereich in Transformers

Sainbayar Sukhbaatar Edouard Grave Piotr Bojanowski Armand Joulin

Zusammenfassung

Wir schlagen einen neuen Selbst-Aufmerksamkeitsmechanismus vor, der seine optimale Aufmerksamkeitsspanne lernen kann. Dies ermöglicht es uns, die maximale Kontextgröße in Transformer-Modellen erheblich zu erweitern, während wir gleichzeitig die Kontrolle über ihren Speicherverbrauch und die Rechenzeit behalten. Wir demonstrieren die Effektivität unseres Ansatzes anhand der Aufgabe des Zeichen-Level-Sprachmodellierens, bei der wir durch die Verwendung einer maximalen Kontextgröße von 8.000 Zeichen (8k characters) Stand-der-Technik-Ergebnisse auf den Datensätzen text8 und enwiki8 erzielen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp