vor 17 Tagen

Conformer: Convolution-augmentierter Transformer für die Spracherkennung

Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang

Details der Forschungsarbeit anzeigen

Conformer: Convolution-augmentierter Transformer für die Spracherkennung

Abstract

Kürzlich haben Transformer- und Faltungsneuronale Netzwerke (CNN) basierte Modelle vielversprechende Ergebnisse in der automatischen Spracherkennung (ASR) erzielt und übertrafen dabei rekurrente neuronale Netzwerke (RNNs). Transformer-Modelle sind besonders gut darin, globale, inhaltsbasierte Wechselwirkungen zu erfassen, während CNNs lokale Merkmale effektiv ausnutzen können. In dieser Arbeit erreichen wir das Beste aus beiden Welten, indem wir untersuchen, wie Faltungsneuronale Netzwerke und Transformer kombiniert werden können, um sowohl lokale als auch globale Abhängigkeiten einer Audiosequenz parameter-effizient zu modellieren. Dazu stellen wir den convolution-augmented Transformer für die Spracherkennung vor, den sogenannten Conformer. Der Conformer übertrifft die bisherigen Transformer- und CNN-basierten Modelle deutlich und erreicht Zustand-der-Kunst-Genauigkeiten. Auf dem weit verbreiteten LibriSpeech-Benchmark erzielt unser Modell eine Fehlerquote (WER) von 2,1 %/4,3 % ohne Verwendung eines Sprachmodells und 1,9 %/3,9 % mit einem externen Sprachmodell auf den Test- und Testother-Daten. Außerdem zeigen wir wettbewerbsfähige Ergebnisse von 2,7 %/6,3 % mit einem kleinem Modell mit lediglich 10 M Parametern.