HyperAIHyperAI

Command Palette

Search for a command to run...

Beachten Sie, wenn erforderlich

Swetha Mandava Szymon Migacz Alex Fit Florea

Zusammenfassung

Transformer-basierte Modelle bestehen aus abwechselnden Feed-Forward-Blöcken – die Inhaltsbedeutung erfassen – und vergleichsweise aufwändigeren Self-Attention-Blöcken – die Kontextbedeutung erfassen. In dieser Arbeit untersuchten wir die Trade-offs und die Reihenfolge dieser Blöcke, um die aktuelle Transformer-Architektur zu verbessern, und stellten den PAR-Transformer vor. Der PAR-Transformer benötigt gegenüber Transformer-XL 35 % weniger Rechenzeit, indem etwa 63 % der Self-Attention-Blöcke durch Feed-Forward-Blöcke ersetzt werden, und behält dabei die Perplexität auf dem WikiText-103-Sprachmodellierungsbenchmark bei. Unsere Ergebnisse validierten wir zudem anhand der Datensätze text8 und enwiki8 sowie am BERT-Modell.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp