HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentale rekurrente Neuronale Netze für die end-to-end Spracherkennung

Liang Lu Lingpeng Kong Chris Dyer Noah A. Smith Steve Renals

Zusammenfassung

Wir untersuchen das segmentale rekurrente Neuronale Netzwerk (RNN) für die end-to-end akustische Modellierung. Dieses Modell verbindet das segmentale bedingte Zufallsfeld (Conditional Random Field, CRF) mit einem rekurrenten neuronalen Netzwerk, das zur Merkmalsextraktion verwendet wird. Im Vergleich zu den meisten früheren CRF-basierten akustischen Modellen ist es nicht abhängig von einem externen System zur Bereitstellung von Merkmalen oder Segmentierungsgrenzen. Stattdessen marginalisiert dieses Modell alle möglichen Segmentierungen und die Merkmale werden aus dem RNN extrahiert, das zusammen mit dem segmentalen CRF trainiert wird. Im Wesentlichen ist dieses Modell selbständig und kann end-to-end trainiert werden. In dieser Arbeit diskutieren wir praktische Aspekte des Trainings und der Decodierung sowie die Methode zur Beschleunigung des Trainings im Kontext der Spracherkennung. Wir führten Experimente am TIMIT-Datensatz durch. Bei der ersten Decodierung erreichten wir eine Phonfehlerquote (Phone Error Rate, PER) von 17,3 % – das beste bisher gemeldete Ergebnis unter Verwendung von CRFs, obwohl wir nur ein CRF nullter Ordnung verwendeten und keinen Sprachmodell einsetzten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Segmentale rekurrente Neuronale Netze für die end-to-end Spracherkennung | Paper | HyperAI