HyperAIHyperAI

Command Palette

Search for a command to run...

Identification de la langue parlée à l'aide de ConvNets

Sarthak Shikhar Shukla Govind Mittal

Résumé

L'identification de la langue (LI) est une étape cruciale dans plusieurs systèmes de traitement de la parole. Avec l'augmentation du nombre d'assistants vocaux, l'identification de la langue par la parole est devenue un domaine largement étudié. Pour aborder le problème d'identification des langues, on peut opter pour une approche implicite où seule la parole d'une langue est présente, ou pour une approche explicite où le texte et sa transcription correspondante sont disponibles. Ce papier se concentre sur une approche implicite en raison de l'absence de données transcriptions. Il évalue les modèles existants et propose un nouveau modèle basé sur l'attention pour l'identification des langues, utilisant des images de spectrogrammes log-Mel comme entrée. Nous présentons également l'efficacité des formes d'onde brutes en tant que caractéristiques pour les modèles de réseaux neuronaux dans les tâches d'identification des langues (LI). Pour l'entraînement et l'évaluation des modèles, nous avons classifié six langues (anglais, français, allemand, espagnol, russe et italien) avec une précision de 95,4 % et quatre langues (anglais, français, allemand et espagnol) avec une précision de 96,3 % à partir du jeu de données VoxForge. Cette approche peut être élargie pour intégrer davantage de langues.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp