L'attention est-elle toujours nécessaire ? Une étude de cas sur l'identification de la langue à partir de la parole

L'identification de la langue (LID) est une étape cruciale dans le domaine de la reconnaissance automatique de la parole (ASR) qui consiste à identifier une langue parlée à partir d'échantillons audio. Les systèmes contemporains capables de traiter la parole en plusieurs langues nécessitent que les utilisateurs désignent expressément une ou plusieurs langues avant leur utilisation. La tâche LID joue un rôle significatif dans les scénarios où les systèmes ASR ne parviennent pas à comprendre la langue parlée dans des contextes multilingues, entraînant des résultats infructueux en reconnaissance vocale. La présente étude introduit un modèle LID basé sur un réseau neuronal convolutif récurrent (CRNN), conçu pour fonctionner sur les caractéristiques des coefficients cepstraux de fréquence de Mel (MFCC) des échantillons audio. De plus, nous reproduisons certaines méthodologies de pointe, notamment le réseau neuronal convolutif (CNN) et le réseau neuronal convolutif récurrent avec mécanisme d'attention (CRNN avec attention), et nous menons une analyse comparative avec notre approche basée sur le CRNN. Nous avons effectué des évaluations exhaustives sur treize langues indiennes distinctes, et notre modèle a obtenu une précision de classification supérieure à 98 %. Le modèle LID montre des niveaux de performance élevés variant entre 97 % et 100 % pour les langues linguistiquement similaires. Le modèle LID proposé fait preuve d'une grande extensibilité aux langues supplémentaires et démontre une forte résistance au bruit, atteignant une précision de 91,2 % dans un environnement bruyant lorsqu'il est appliqué à un jeu de données de langues européennes (EU).