vor 2 Monaten

Relaxed Attention für Transformer-Modelle

Lohrenz, Timo ; Möller, Björn ; Li, Zhengyang ; Fingscheidt, Tim

Abstract

Die leistungsstarken Modellierungsfähigkeiten von Transformer-Architekturen, die ausschließlich auf Aufmerksamkeit basieren, führen oft zu Überanpassung und - bei Aufgaben der natürlichen Sprachverarbeitung - zur impliziten Lernung eines internen Sprachmodells im autoregressiven Transformer-Dekoder, was die Integration externer Sprachmodelle erschwert. In dieser Arbeit untersuchen wir relaxierte Aufmerksamkeit, eine einfache und leicht umzusetzende Glättung der Aufmerksamkeitsgewichte, die eine zweifache Verbesserung der allgemeinen Transformer-Architektur ermöglicht: Erstens bietet relaxierte Aufmerksamkeit Regularisierung, wenn sie auf die Selbstaufmerksamkeitsschichten im Encoder angewendet wird. Zweitens zeigen wir, dass sie die Integration eines externen Sprachmodells natürlich unterstützt, da sie das implizit gelernte interne Sprachmodell durch Lockerung der Kreuzaufmerksamkeit im Dekoder unterdrückt. Wir demonstrieren den Nutzen der relaxierten Aufmerksamkeit an mehreren Aufgaben mit deutlichen Verbesserungen in Kombination mit aktuellen Benchmark-Methoden. Insbesondere übertreffen wir die bisherige Bestleistung von 26,90 % Wortfehlerrate auf dem größten öffentlichen Lippenlesedatensatz LRS3 mit einer Wortfehlerrate von 26,31 %. Zudem erreichen wir einen Spitzen-BLEU-Wert von 37,67 bei der maschinellen Übersetzungsaufgabe IWSLT14 (DE→EN), ohne externe Sprachmodelle und praktisch keine zusätzlichen Modellparameter. Der Code und die Modelle werden öffentlich zugänglich gemacht.