HyperAIHyperAI

Command Palette

Search for a command to run...

Das IBM-Telefonsprecherkennungssystem für konversationelles Englisch aus dem Jahr 2016

George Saon Tom Sercu Steven Rennie Hong-Kwang J. Kuo

Zusammenfassung

Wir beschreiben eine Sammlung von Techniken zur akustischen und sprachlichen Modellierung, die den Wortschreibfehler (word error rate) unseres englischen konversationsbasierten Telefon-Systems für die automatische Spracherkennung (LVCSR) auf dem Switchboard-Teil des Hub5 2000 Evaluations-Datensatzes auf einen Rekordwert von 6,6 % senkten. Auf der akustischen Seite verwenden wir eine Score-Fusion von drei starken Modellen: rekurrenten Netzen mit Maxout-Aktivierungen, sehr tiefen Faltungsnetzen mit 3x3-Kernen und bidirektionale Long Short-Term Memory-Netze, die auf FMLLR- und i-Vektor-Features operieren. Auf der Seite der sprachlichen Modellierung nutzen wir ein aktualisiertes Modell „M“ sowie hierarchische neuronale Netzwerk-Sprachmodelle (hierarchical neural network LMs).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Das IBM-Telefonsprecherkennungssystem für konversationelles Englisch aus dem Jahr 2016 | Paper | HyperAI