HyperAIHyperAI
vor 2 Monaten

Sprachidentifikation mit tiefen konvolutionellen rekurrenten Neuronalen Netzen

Christian Bartz; Tom Herold; Haojin Yang; Christoph Meinel
Abstract

Sprachidentifikationssysteme (LID) werden verwendet, um die gesprochene Sprache aus einem gegebenen Audiosample zu klassifizieren und stellen in der Regel den ersten Schritt für viele Aufgaben der Sprachverarbeitung dar, wie z.B. automatische Spracherkennung (ASR)-Systeme. Ohne automatische Spracherkennung können Sprechäußerungen nicht korrekt analysiert und Grammatikregeln nicht angewendet werden, was dazu führt, dass nachfolgende Schritte der Spracherkennung fehlschlagen. Wir schlagen ein LID-System vor, das das Problem im Bildbereich und nicht im Audio-Bereich löst. Wir verwenden ein hybrides Faltungs-Rekurrentes Neuronales Netzwerk (CRNN), das auf Spektrogrammbildern der bereitgestellten Audioschnipsel operiert. In umfangreichen Experimenten zeigen wir, dass unser Modell für eine Reihe von rauscharmen Szenarien anwendbar ist und leicht auf bisher unbekannte Sprachen erweitert werden kann, wobei es seine Klassifizierungsgenauigkeit beibehält. Wir veröffentlichen unseren Code und einen großen Trainingsdatensatz für LID-Systeme an die Community.

Sprachidentifikation mit tiefen konvolutionellen rekurrenten Neuronalen Netzen | Neueste Forschungsarbeiten | HyperAI