HyperAIHyperAI

Command Palette

Search for a command to run...

Ist Aufmerksamkeit immer erforderlich? Eine Fallstudie zur Spracherkennung aus der Rede

Atanu Mandal Santanu Pal Indranil Dutta Mahidas Bhattacharya Sudip Kumar Naskar

Zusammenfassung

Die Sprachidentifikation (Spracherkennung, LID) ist ein entscheidender vorbereitender Prozess im Bereich der automatischen Spracherkennung (Automatic Speech Recognition, ASR), bei dem es darum geht, eine gesprochene Sprache aus Audiosamples zu identifizieren. Moderne Systeme, die in mehreren Sprachen verarbeitet werden können, erfordern von den Benutzern, dass sie eine oder mehrere Sprachen vor der Nutzung explizit angeben. Die Aufgabe der LID gewinnt an Bedeutung in Szenarien, in denen ASR-Systeme die gesprochene Sprache in multilingualen Umgebungen nicht verstehen können, was zu fehlerhaften Ergebnissen der Spracherkennung führt. In dieser Studie wird ein auf konvolutionellen rekurrenten Neuronalen Netzen (Convolutional Recurrent Neural Network, CRNN) basierendes LID vorgestellt, das auf den Mel-Frequenz-Cepstralkoeffizienten (Mel-frequency Cepstral Coefficient, MFCC) von Audiosamples arbeitet. Zudem reproduzieren wir bestimmte Methoden des aktuellen Standes der Technik, insbesondere das Konvolutionsneuronale Netz (Convolutional Neural Network, CNN) und das aufmerksamkeitsbasierte konvolutorisch-rekurrente neuronale Netz (Attention-based Convolutional Recurrent Neural Network, CRNN mit Aufmerksamkeit), und führen eine vergleichende Analyse mit unserem CRNN-basierten Ansatz durch. Wir haben umfassende Evaluierungen an dreizehn verschiedenen indischen Sprachen durchgeführt und unser Modell erreichte eine Klassifizierungsgenauigkeit von über 98 %. Das LID-Modell zeigt Leistungsgrade zwischen 97 % und 100 % für sprachlich ähnliche Sprachen. Das vorgeschlagene LID-Modell weist einen hohen Grad an Erweiterbarkeit für zusätzliche Sprachen auf und demonstriert eine starke Robustheit gegenüber Rauschen, wobei es bei Anwendung auf einem europäischen Datensatz (European Language Dataset, EU) in einer rauschartigen Umgebung eine Genauigkeit von 91,2 % erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ist Aufmerksamkeit immer erforderlich? Eine Fallstudie zur Spracherkennung aus der Rede | Paper | HyperAI