HyperAIHyperAI
il y a 2 mois

Construction d'un système de reconnaissance vocale à distance de pointe en utilisant le défi CHiME-4 avec une configuration de base pour l'amélioration du discours

Szu-Jui Chen; Aswin Shanmugam Subramanian; Hainan Xu; Shinji Watanabe
Construction d'un système de reconnaissance vocale à distance de pointe en utilisant le défi CHiME-4 avec une configuration de base pour l'amélioration du discours
Résumé

Ce document décrit un nouveau système de référence pour la reconnaissance automatique de la parole (ASR) dans le défi CHiME-4, visant à promouvoir le développement de l'ASR en environnement bruyant au sein des communautés de traitement de la parole en fournissant : 1) un système d'avant-garde simplifié, comparable aux systèmes complexes les mieux classés du défi ; 2) une recette disponible publiquement et reproductible via le dépôt principal du kit de reconnaissance vocale Kaldi. Le système proposé adopte une beamforming basée sur les valeurs propres généralisées avec une estimation de masque utilisant des réseaux de neurones à mémoire à court et long terme bidirectionnels (LSTM). Nous proposons également d'utiliser un réseau neuronal à retard temporel (TDNN) basé sur la version sans treillis de l'information mutuelle maximale (LF-MMI), entraîné avec les données augmentées provenant des six microphones ainsi que les données améliorées après beamforming. Enfin, nous utilisons un modèle linguistique LSTM pour le reclassement des treillis et des meilleures hypothèses (n-best). Le système final a atteint un taux d'erreur de reconnaissance (WER) de 2,74 % pour l'ensemble de tests réels dans la piste à 6 canaux, ce qui correspond à la deuxième place dans le défi. De plus, la recette proposée comme système de référence inclut quatre mesures différentes d'amélioration de la parole : la mesure d'intelligibilité objective à court terme (STOI), la STOI étendue (eSTOI), l'évaluation perceptive de la qualité vocale (PESQ) et le rapport de distorsion vocale (SDR) pour l'ensemble de tests simulés. Ainsi, cette recette offre également une plateforme expérimentale pour les études d'amélioration de la parole avec ces mesures de performance.

Construction d'un système de reconnaissance vocale à distance de pointe en utilisant le défi CHiME-4 avec une configuration de base pour l'amélioration du discours | Articles de recherche récents | HyperAI