HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der mandarinsprachlichen Spracherkennung mit blockaugmentiertem Transformer

Xiaoming Ren Huifeng Zhu Liuwei Wei Minghui Wu Jie Hao

Zusammenfassung

Kürzlich hat der Convolution-augmented Transformer (Conformer) vielversprechende Ergebnisse in der automatischen Spracherkennung (Automatic Speech Recognition, ASR) erzielt und den bisher besten veröffentlichten Transformer Transducer übertroffen. In dieser Arbeit vermuten wir, dass die Ausgabedaten jedes Blocks im Encoder und Decoder nicht vollständig inklusiv sind, d. h., ihre Ausgabedaten könnten sich gegenseitig ergänzen. Wir untersuchen, wie man diese ergänzenden Informationen effizient im Sinne der Parameter-Nutzung nutzen kann, wobei erwartet wird, dass dies zu robusteren Leistungen führen könnte. Daher schlagen wir den Block-augmented Transformer für die Spracherkennung, benannt als Blockformer, vor. Wir haben zwei Block-Ensemble-Methoden implementiert: die Basisgewichtete Summe der Block-Ausgaben (Base-WSBO) und die Squeeze-and-Excitation-Modul-basierte gewichtete Summe der Block-Ausgaben (SE-WSBO). Experimente haben gezeigt, dass der Blockformer die derzeit besten Conformer-basierten Modelle auf dem AISHELL-1-Datensatz deutlich übertrifft. Unser Modell erreicht ohne Verwendung eines Sprachmodells eine CER von 4,29 % und mit einem externen Sprachmodell eine CER von 4,05 % auf dem Testset.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung der mandarinsprachlichen Spracherkennung mit blockaugmentiertem Transformer | Paper | HyperAI