HyperAIHyperAI

Command Palette

Search for a command to run...

Sprachidentifikation mit tiefen konvolutionellen rekurrenten Neuronalen Netzen

Christian Bartz* Tom Herold* Haojin Yang Christoph Meinel

Zusammenfassung

Sprachidentifikationssysteme (LID) werden verwendet, um die gesprochene Sprache aus einem gegebenen Audiosample zu klassifizieren und stellen in der Regel den ersten Schritt für viele Aufgaben der Sprachverarbeitung dar, wie z.B. automatische Spracherkennung (ASR)-Systeme. Ohne automatische Spracherkennung können Sprechäußerungen nicht korrekt analysiert und Grammatikregeln nicht angewendet werden, was dazu führt, dass nachfolgende Schritte der Spracherkennung fehlschlagen. Wir schlagen ein LID-System vor, das das Problem im Bildbereich und nicht im Audio-Bereich löst. Wir verwenden ein hybrides Faltungs-Rekurrentes Neuronales Netzwerk (CRNN), das auf Spektrogrammbildern der bereitgestellten Audioschnipsel operiert. In umfangreichen Experimenten zeigen wir, dass unser Modell für eine Reihe von rauscharmen Szenarien anwendbar ist und leicht auf bisher unbekannte Sprachen erweitert werden kann, wobei es seine Klassifizierungsgenauigkeit beibehält. Wir veröffentlichen unseren Code und einen großen Trainingsdatensatz für LID-Systeme an die Community.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp