HyperAIHyperAI
il y a 2 mois

Identification de la langue parlée à l'aide de ConvNets

Sarthak; Shikhar Shukla; Govind Mittal
Identification de la langue parlée à l'aide de ConvNets
Résumé

L'identification de la langue (LI) est une étape cruciale dans plusieurs systèmes de traitement de la parole. Avec l'augmentation du nombre d'assistants vocaux, l'identification de la langue par la parole est devenue un domaine largement étudié. Pour aborder le problème d'identification des langues, on peut opter pour une approche implicite où seule la parole d'une langue est présente, ou pour une approche explicite où le texte et sa transcription correspondante sont disponibles. Ce papier se concentre sur une approche implicite en raison de l'absence de données transcriptions. Il évalue les modèles existants et propose un nouveau modèle basé sur l'attention pour l'identification des langues, utilisant des images de spectrogrammes log-Mel comme entrée. Nous présentons également l'efficacité des formes d'onde brutes en tant que caractéristiques pour les modèles de réseaux neuronaux dans les tâches d'identification des langues (LI). Pour l'entraînement et l'évaluation des modèles, nous avons classifié six langues (anglais, français, allemand, espagnol, russe et italien) avec une précision de 95,4 % et quatre langues (anglais, français, allemand et espagnol) avec une précision de 96,3 % à partir du jeu de données VoxForge. Cette approche peut être élargie pour intégrer davantage de langues.

Identification de la langue parlée à l'aide de ConvNets | Articles de recherche récents | HyperAI