HyperAIHyperAI

Command Palette

Search for a command to run...

Aufbau eines standesgemäßen distanzierten Spracherkennungssystems unter Verwendung der CHiME-4-Challenge mit einer Konfiguration zur Sprachverbesserung als Baseline

Szu-Jui Chen Aswin Shanmugam Subramanian Hainan Xu Shinji Watanabe

Zusammenfassung

Dieses Papier beschreibt ein neues Baseline-System für die automatische Spracherkennung (ASR) im Rahmen der CHiME-4-Challenge, das die Entwicklung von rauschartigen ASR-Systemen in der Sprachverarbeitungsgemeinschaft fördern soll. Dies geschieht durch die Bereitstellung von 1) einem Stand-des-Wissens-System mit einer vereinfachten Einzelsystemstruktur, die den komplexen Top-Systemen der Challenge entspricht, und 2) einem öffentlich zugänglichen und reproduzierbaren Rezept über das Hauptrepository des Kaldi-Spracherkennungstoolkits. Das vorgeschlagene System verwendet verallgemeinerte Eigenwert-Beamforming mit bidirektionaler Long Short-Term Memory (LSTM)-Maske Schätzung. Darüber hinaus schlagen wir vor, eine zeitverzögerte neuronale Netzwerkarchitektur (TDNN) zu verwenden, die auf der gitterfreien Version der maximalen gegenseitigen Information (LF-MMI) basiert und mit den sechs augmentierten Mikrofonen sowie den nach dem Beamforming verbesserten Daten trainiert wird. Schließlich nutzen wir ein LSTM-Sprachmodell für die Gitter- und N-Best-Rebewertung. Das endgültige System erreichte einen Word Error Rate (WER) von 2,74 % für den realen Testdatensatz im 6-Kanal-Pfad, was dem zweiten Platz in der Challenge entspricht. Zudem enthält das vorgeschlagene Baseline-Rezept vier verschiedene Maßnahmen zur Sprachverbesserung: die kurzzeitige objektive Verständlichkeitsmessung (STOI), die erweiterte STOI (eSTOI), die perceptuelle Bewertung der Sprachqualität (PESQ) und das Sprachverzerrungsverhältnis (SDR) für den simulierten Testdatensatz. Somit bietet das Rezept auch eine experimentelle Plattform für Studien zur Sprachverbesserung mit diesen Leistungsmaßen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp