HyperAIHyperAI

Command Palette

Search for a command to run...

Relaxed Attention für Transformer-Modelle

Timo Lohrenz Björn Möller Zhengyang Li Tim Fingscheidt

Zusammenfassung

Die leistungsstarken Modellierungsfähigkeiten von Transformer-Architekturen, die ausschließlich auf Aufmerksamkeit basieren, führen oft zu Überanpassung und - bei Aufgaben der natürlichen Sprachverarbeitung - zur impliziten Lernung eines internen Sprachmodells im autoregressiven Transformer-Dekoder, was die Integration externer Sprachmodelle erschwert. In dieser Arbeit untersuchen wir relaxierte Aufmerksamkeit, eine einfache und leicht umzusetzende Glättung der Aufmerksamkeitsgewichte, die eine zweifache Verbesserung der allgemeinen Transformer-Architektur ermöglicht: Erstens bietet relaxierte Aufmerksamkeit Regularisierung, wenn sie auf die Selbstaufmerksamkeitsschichten im Encoder angewendet wird. Zweitens zeigen wir, dass sie die Integration eines externen Sprachmodells natürlich unterstützt, da sie das implizit gelernte interne Sprachmodell durch Lockerung der Kreuzaufmerksamkeit im Dekoder unterdrückt. Wir demonstrieren den Nutzen der relaxierten Aufmerksamkeit an mehreren Aufgaben mit deutlichen Verbesserungen in Kombination mit aktuellen Benchmark-Methoden. Insbesondere übertreffen wir die bisherige Bestleistung von 26,90 % Wortfehlerrate auf dem größten öffentlichen Lippenlesedatensatz LRS3 mit einer Wortfehlerrate von 26,31 %. Zudem erreichen wir einen Spitzen-BLEU-Wert von 37,67 bei der maschinellen Übersetzungsaufgabe IWSLT14 (DE→EN), ohne externe Sprachmodelle und praktisch keine zusätzlichen Modellparameter. Der Code und die Modelle werden öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp