il y a 2 mois

Adaptation conjointe orientée vers la direction de l’amélioration neuronale de la parole et de la reconnaissance dans des environnements conversationnels réels à plusieurs parties

Yicheng Du; Aditya Arie Nugraha; Kouhei Sekiguchi; Yoshiaki Bando; Mathieu Fontaine; Kazuyoshi Yoshii

Résumé

Ce document décrit la reconnaissance de la parole bruitée pour un casque de réalité augmentée qui aide à la communication verbale dans des environnements conversationnels réels et à plusieurs participants. Une approche majeure qui a été activement étudiée dans des environnements simulés consiste à effectuer séquentiellement l'amélioration de la parole et la reconnaissance automatique de la parole (ASR) en s'appuyant sur des réseaux neuronaux profonds (DNN) formés de manière supervisée. Dans notre tâche, cependant, un tel système préformé échoue en raison du décalage entre les conditions d'entraînement et de test ainsi que des mouvements de tête de l'utilisateur. Pour n'améliorer que les paroles du locuteur cible, nous utilisons une technique de beamforming basée sur un estimateur de masque vocal DNN capable d'extraire de manière adaptative les composantes vocales correspondant à une direction particulière relative à la tête. Nous proposons une méthode d'adaptation semi-supervisée qui met à jour conjointement l'estimateur de masque et le modèle ASR en temps réel, en utilisant des signaux vocaux propres avec des transcriptions véritables et des signaux vocaux bruités avec des transcriptions estimées très fiables. Des expériences comparatives utilisant le système actuel le plus avancé de reconnaissance de la parole à distance montrent que la méthode proposée améliore significativement les performances de l'ASR.