Relaxed Attention: Eine einfache Methode zur Steigerung der Leistung von End-to-End-automatischer Spracherkennung

Kürzlich haben auf Aufmerksamkeit basierende Encoder-Decoder (AED)-Modelle aufgrund ihrer hohen Leistungsfähigkeit bei mehreren Aufgaben im Bereich der end-to-end-Spracherkennung (ASR) Aufmerksamkeit erregt. Um das Problem der Überzuversichtlichkeit solcher Modelle anzugehen, führen wir im vorliegenden Paper den Begriff der „gelockerten Aufmerksamkeit“ ein, eine einfache, schrittweise Injektion einer gleichmäßigen Verteilung in die Aufmerksamkeitsgewichte zwischen Encoder und Decoder während des Trainings, die mit lediglich zwei Codezeilen leicht implementierbar ist. Wir untersuchen den Einfluss der gelockerten Aufmerksamkeit an verschiedenen AED-Modellarchitekturen sowie an zwei bedeutenden ASR-Aufgaben, dem Wall Street Journal (WSJ)- und dem Librispeech-Datensatz. Wir stellen fest, dass Transformer, die mit gelockerter Aufmerksamkeit trainiert wurden, bei der Dekodierung mit externen Sprachmodellen konsistent die Standardbaselines übertreffen. Auf dem WSJ-Datensatz erreichen wir mit einem Wortfehlerquote von 3,65 % eine neue Benchmark für transformerbasierte end-to-end-Spracherkennung und überbieten damit den Stand der Technik (4,20 %) um 13,1 % relativ – und das nur mit der Einführung eines einzigen Hyperparameters.