vor 17 Tagen

Verbesserung der mandarinsprachlichen Spracherkennung mit blockaugmentiertem Transformer

Xiaoming Ren, Huifeng Zhu, Liuwei Wei, Minghui Wu, Jie Hao

Abstract

Kürzlich hat der Convolution-augmented Transformer (Conformer) vielversprechende Ergebnisse in der automatischen Spracherkennung (Automatic Speech Recognition, ASR) erzielt und den bisher besten veröffentlichten Transformer Transducer übertroffen. In dieser Arbeit vermuten wir, dass die Ausgabedaten jedes Blocks im Encoder und Decoder nicht vollständig inklusiv sind, d. h., ihre Ausgabedaten könnten sich gegenseitig ergänzen. Wir untersuchen, wie man diese ergänzenden Informationen effizient im Sinne der Parameter-Nutzung nutzen kann, wobei erwartet wird, dass dies zu robusteren Leistungen führen könnte. Daher schlagen wir den Block-augmented Transformer für die Spracherkennung, benannt als Blockformer, vor. Wir haben zwei Block-Ensemble-Methoden implementiert: die Basisgewichtete Summe der Block-Ausgaben (Base-WSBO) und die Squeeze-and-Excitation-Modul-basierte gewichtete Summe der Block-Ausgaben (SE-WSBO). Experimente haben gezeigt, dass der Blockformer die derzeit besten Conformer-basierten Modelle auf dem AISHELL-1-Datensatz deutlich übertrifft. Unser Modell erreicht ohne Verwendung eines Sprachmodells eine CER von 4,29 % und mit einem externen Sprachmodell eine CER von 4,05 % auf dem Testset.