Identification de la langue à l'aide de réseaux neuronaux convolutifs récurrents profonds
Les systèmes d'identification de langues (LID) sont utilisés pour classer la langue parlée à partir d'un échantillon audio donné et constituent généralement la première étape de nombreuses tâches de traitement des langues parlées, telles que les systèmes de reconnaissance automatique de la parole (ASR). Sans détection automatique de la langue, les énoncés vocaux ne peuvent pas être analysés correctement et les règles grammaticales ne peuvent pas être appliquées, ce qui entraîne l'échec des étapes ultérieures de reconnaissance vocale. Nous proposons un système LID qui résout le problème dans le domaine des images plutôt que dans le domaine audio. Nous utilisons un réseau neuronal convolutif récurrent hybride (CRNN) qui opère sur des images de spectrogrammes des extraits audio fournis. Dans des expériences approfondies, nous montrons que notre modèle est applicable à une gamme de scénarios bruyants et peut facilement être étendu aux langues inconnues précédemment, tout en maintenant sa précision de classification. Nous mettons à disposition notre code et un ensemble d'apprentissage à grande échelle pour les systèmes LID au sein de la communauté.