HyperAIHyperAI

Command Palette

Search for a command to run...

Conformer: Convolution-augmentierter Transformer für die Spracherkennung

Zusammenfassung

Kürzlich haben Transformer- und Faltungsneuronale Netzwerke (CNN) basierte Modelle vielversprechende Ergebnisse in der automatischen Spracherkennung (ASR) erzielt und übertrafen dabei rekurrente neuronale Netzwerke (RNNs). Transformer-Modelle sind besonders gut darin, globale, inhaltsbasierte Wechselwirkungen zu erfassen, während CNNs lokale Merkmale effektiv ausnutzen können. In dieser Arbeit erreichen wir das Beste aus beiden Welten, indem wir untersuchen, wie Faltungsneuronale Netzwerke und Transformer kombiniert werden können, um sowohl lokale als auch globale Abhängigkeiten einer Audiosequenz parameter-effizient zu modellieren. Dazu stellen wir den convolution-augmented Transformer für die Spracherkennung vor, den sogenannten Conformer. Der Conformer übertrifft die bisherigen Transformer- und CNN-basierten Modelle deutlich und erreicht Zustand-der-Kunst-Genauigkeiten. Auf dem weit verbreiteten LibriSpeech-Benchmark erzielt unser Modell eine Fehlerquote (WER) von 2,1 %/4,3 % ohne Verwendung eines Sprachmodells und 1,9 %/3,9 % mit einem externen Sprachmodell auf den Test- und Testother-Daten. Außerdem zeigen wir wettbewerbsfähige Ergebnisse von 2,7 %/6,3 % mit einem kleinem Modell mit lediglich 10 M Parametern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp