HyperAIHyperAI

Command Palette

Search for a command to run...

Identification de la langue à l'aide de réseaux neuronaux convolutifs récurrents profonds

Christian Bartz* Tom Herold* Haojin Yang Christoph Meinel

Résumé

Les systèmes d'identification de langues (LID) sont utilisés pour classer la langue parlée à partir d'un échantillon audio donné et constituent généralement la première étape de nombreuses tâches de traitement des langues parlées, telles que les systèmes de reconnaissance automatique de la parole (ASR). Sans détection automatique de la langue, les énoncés vocaux ne peuvent pas être analysés correctement et les règles grammaticales ne peuvent pas être appliquées, ce qui entraîne l'échec des étapes ultérieures de reconnaissance vocale. Nous proposons un système LID qui résout le problème dans le domaine des images plutôt que dans le domaine audio. Nous utilisons un réseau neuronal convolutif récurrent hybride (CRNN) qui opère sur des images de spectrogrammes des extraits audio fournis. Dans des expériences approfondies, nous montrons que notre modèle est applicable à une gamme de scénarios bruyants et peut facilement être étendu aux langues inconnues précédemment, tout en maintenant sa précision de classification. Nous mettons à disposition notre code et un ensemble d'apprentissage à grande échelle pour les systèmes LID au sein de la communauté.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp