vor 17 Tagen

Stand der Technik der Spracherkennung unter Verwendung von Multi-Stream Self-Attention mit dilatierten 1D-Faltungen

Kyu J. Han, Ramon Prieto, Kaixing Wu, Tao Ma

Abstract

Self-Attention hat für zahlreiche Anwendungen im Bereich der natürlichen Sprachverarbeitung (NLP) große Erfolge erzielt, was zur Untersuchung der Anwendung von Self-Attention auch auf Sprachprobleme führte. Die Wirksamkeit von Self-Attention in Sprachanwendungen scheint jedoch noch nicht vollständig ausgeschöpft zu sein, da die Behandlung hochkorrelierter Sprachframes im Kontext von Self-Attention herausfordernd ist. In diesem Artikel stellen wir eine neue Architektur neuronalen Netzwerks vor, namens Multi-Stream Self-Attention, um dieses Problem anzugehen und die Effektivität des Self-Attention-Mechanismus für die Spracherkennung zu verbessern. Die vorgeschlagene Architektur besteht aus parallelen Strömen von Self-Attention-Encodern, wobei jeder Stream Schichten von 1D-Faltungsoperationen mit dilatierten Kernen aufweist, deren Dilatationsraten jeweils eindeutig für den einzelnen Stream sind, gefolgt von einer Self-Attention-Schicht. Der Self-Attention-Mechanismus in jedem Stream konzentriert sich ausschließlich auf eine einzelne Auflösung der Eingabesprachframes, wodurch die Aufmerksamkeitsberechnung effizienter wird. In einem späteren Stadium werden die Ausgaben aller Ströme zusammengefügt und anschließend linear auf das endgültige Embedding projiziert. Durch Stapelung der vorgeschlagenen Multi-Stream Self-Attention-Encoder-Blöcke und Nachverbesserung der resultierenden Lattices mittels neuronalen Sprachmodellen erreichen wir eine Wortfehlerquote von 2,2 % auf dem Test-Clean-Datensatz der LibriSpeech-Korpus – die bisher bestgemeldete Zahl für diesen Datensatz.