HyperAIHyperAI

Command Palette

Search for a command to run...

L'attention est-elle toujours nécessaire ? Une étude de cas sur l'identification de la langue à partir de la parole

Atanu Mandal Santanu Pal Indranil Dutta Mahidas Bhattacharya Sudip Kumar Naskar

Résumé

L'identification de la langue (LID) est une étape cruciale dans le domaine de la reconnaissance automatique de la parole (ASR) qui consiste à identifier une langue parlée à partir d'échantillons audio. Les systèmes contemporains capables de traiter la parole en plusieurs langues nécessitent que les utilisateurs désignent expressément une ou plusieurs langues avant leur utilisation. La tâche LID joue un rôle significatif dans les scénarios où les systèmes ASR ne parviennent pas à comprendre la langue parlée dans des contextes multilingues, entraînant des résultats infructueux en reconnaissance vocale. La présente étude introduit un modèle LID basé sur un réseau neuronal convolutif récurrent (CRNN), conçu pour fonctionner sur les caractéristiques des coefficients cepstraux de fréquence de Mel (MFCC) des échantillons audio. De plus, nous reproduisons certaines méthodologies de pointe, notamment le réseau neuronal convolutif (CNN) et le réseau neuronal convolutif récurrent avec mécanisme d'attention (CRNN avec attention), et nous menons une analyse comparative avec notre approche basée sur le CRNN. Nous avons effectué des évaluations exhaustives sur treize langues indiennes distinctes, et notre modèle a obtenu une précision de classification supérieure à 98 %. Le modèle LID montre des niveaux de performance élevés variant entre 97 % et 100 % pour les langues linguistiquement similaires. Le modèle LID proposé fait preuve d'une grande extensibilité aux langues supplémentaires et démontre une forte résistance au bruit, atteignant une précision de 91,2 % dans un environnement bruyant lorsqu'il est appliqué à un jeu de données de langues européennes (EU).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
L'attention est-elle toujours nécessaire ? Une étude de cas sur l'identification de la langue à partir de la parole | Articles | HyperAI