HyperAIHyperAI
vor 2 Monaten

Aufbau eines standesgemäßen distanzierten Spracherkennungssystems unter Verwendung der CHiME-4-Challenge mit einer Konfiguration zur Sprachverbesserung als Baseline

Szu-Jui Chen; Aswin Shanmugam Subramanian; Hainan Xu; Shinji Watanabe
Aufbau eines standesgemäßen distanzierten Spracherkennungssystems unter Verwendung der CHiME-4-Challenge mit einer Konfiguration zur Sprachverbesserung als Baseline
Abstract

Dieses Papier beschreibt ein neues Baseline-System für die automatische Spracherkennung (ASR) im Rahmen der CHiME-4-Challenge, das die Entwicklung von rauschartigen ASR-Systemen in der Sprachverarbeitungsgemeinschaft fördern soll. Dies geschieht durch die Bereitstellung von 1) einem Stand-des-Wissens-System mit einer vereinfachten Einzelsystemstruktur, die den komplexen Top-Systemen der Challenge entspricht, und 2) einem öffentlich zugänglichen und reproduzierbaren Rezept über das Hauptrepository des Kaldi-Spracherkennungstoolkits. Das vorgeschlagene System verwendet verallgemeinerte Eigenwert-Beamforming mit bidirektionaler Long Short-Term Memory (LSTM)-Maske Schätzung. Darüber hinaus schlagen wir vor, eine zeitverzögerte neuronale Netzwerkarchitektur (TDNN) zu verwenden, die auf der gitterfreien Version der maximalen gegenseitigen Information (LF-MMI) basiert und mit den sechs augmentierten Mikrofonen sowie den nach dem Beamforming verbesserten Daten trainiert wird. Schließlich nutzen wir ein LSTM-Sprachmodell für die Gitter- und N-Best-Rebewertung. Das endgültige System erreichte einen Word Error Rate (WER) von 2,74 % für den realen Testdatensatz im 6-Kanal-Pfad, was dem zweiten Platz in der Challenge entspricht. Zudem enthält das vorgeschlagene Baseline-Rezept vier verschiedene Maßnahmen zur Sprachverbesserung: die kurzzeitige objektive Verständlichkeitsmessung (STOI), die erweiterte STOI (eSTOI), die perceptuelle Bewertung der Sprachqualität (PESQ) und das Sprachverzerrungsverhältnis (SDR) für den simulierten Testdatensatz. Somit bietet das Rezept auch eine experimentelle Plattform für Studien zur Sprachverbesserung mit diesen Leistungsmaßen.

Aufbau eines standesgemäßen distanzierten Spracherkennungssystems unter Verwendung der CHiME-4-Challenge mit einer Konfiguration zur Sprachverbesserung als Baseline | Neueste Forschungsarbeiten | HyperAI