HyperAIHyperAI
vor 2 Monaten

Ist Aufmerksamkeit immer erforderlich? Eine Fallstudie zur Spracherkennung aus der Rede

Atanu Mandal; Santanu Pal; Indranil Dutta; Mahidas Bhattacharya; Sudip Kumar Naskar
Ist Aufmerksamkeit immer erforderlich? Eine Fallstudie zur Spracherkennung aus der Rede
Abstract

Die Sprachidentifikation (Spracherkennung, LID) ist ein entscheidender vorbereitender Prozess im Bereich der automatischen Spracherkennung (Automatic Speech Recognition, ASR), bei dem es darum geht, eine gesprochene Sprache aus Audiosamples zu identifizieren. Moderne Systeme, die in mehreren Sprachen verarbeitet werden können, erfordern von den Benutzern, dass sie eine oder mehrere Sprachen vor der Nutzung explizit angeben. Die Aufgabe der LID gewinnt an Bedeutung in Szenarien, in denen ASR-Systeme die gesprochene Sprache in multilingualen Umgebungen nicht verstehen können, was zu fehlerhaften Ergebnissen der Spracherkennung führt. In dieser Studie wird ein auf konvolutionellen rekurrenten Neuronalen Netzen (Convolutional Recurrent Neural Network, CRNN) basierendes LID vorgestellt, das auf den Mel-Frequenz-Cepstralkoeffizienten (Mel-frequency Cepstral Coefficient, MFCC) von Audiosamples arbeitet. Zudem reproduzieren wir bestimmte Methoden des aktuellen Standes der Technik, insbesondere das Konvolutionsneuronale Netz (Convolutional Neural Network, CNN) und das aufmerksamkeitsbasierte konvolutorisch-rekurrente neuronale Netz (Attention-based Convolutional Recurrent Neural Network, CRNN mit Aufmerksamkeit), und führen eine vergleichende Analyse mit unserem CRNN-basierten Ansatz durch. Wir haben umfassende Evaluierungen an dreizehn verschiedenen indischen Sprachen durchgeführt und unser Modell erreichte eine Klassifizierungsgenauigkeit von über 98 %. Das LID-Modell zeigt Leistungsgrade zwischen 97 % und 100 % für sprachlich ähnliche Sprachen. Das vorgeschlagene LID-Modell weist einen hohen Grad an Erweiterbarkeit für zusätzliche Sprachen auf und demonstriert eine starke Robustheit gegenüber Rauschen, wobei es bei Anwendung auf einem europäischen Datensatz (European Language Dataset, EU) in einer rauschartigen Umgebung eine Genauigkeit von 91,2 % erreicht.

Ist Aufmerksamkeit immer erforderlich? Eine Fallstudie zur Spracherkennung aus der Rede | Neueste Forschungsarbeiten | HyperAI