HyperAIHyperAI
vor 9 Tagen

Beachten Sie, wenn erforderlich

Swetha Mandava, Szymon Migacz, Alex Fit Florea
Beachten Sie, wenn erforderlich
Abstract

Transformer-basierte Modelle bestehen aus abwechselnden Feed-Forward-Blöcken – die Inhaltsbedeutung erfassen – und vergleichsweise aufwändigeren Self-Attention-Blöcken – die Kontextbedeutung erfassen. In dieser Arbeit untersuchten wir die Trade-offs und die Reihenfolge dieser Blöcke, um die aktuelle Transformer-Architektur zu verbessern, und stellten den PAR-Transformer vor. Der PAR-Transformer benötigt gegenüber Transformer-XL 35 % weniger Rechenzeit, indem etwa 63 % der Self-Attention-Blöcke durch Feed-Forward-Blöcke ersetzt werden, und behält dabei die Perplexität auf dem WikiText-103-Sprachmodellierungsbenchmark bei. Unsere Ergebnisse validierten wir zudem anhand der Datensätze text8 und enwiki8 sowie am BERT-Modell.