ADA-VAD : Adaptation de domaine adversaire non appariée pour une détection de l'activité vocale robuste au bruit

La détection d’activité vocale (VAD) devient un composant essentiel en amont dans divers systèmes de traitement de la parole. Étant donné que ces systèmes sont fréquemment déployés dans des environnements présentant une grande variété de types de bruit et des rapports signal sur bruit (SNR) faibles, une méthode VAD efficace doit être capable de détecter robustement les régions de parole au sein de signaux bruités. Dans cet article, nous proposons une méthode VAD basée sur l’adaptation de domaine adversaire (ADA-VAD), une approche VAD fondée sur un réseau de neurones profond (DNN) particulièrement robuste face à des échantillons audio présentant divers types de bruit et des SNR faibles. La méthode proposée entraîne les modèles DNN pour une tâche VAD de manière supervisée. Parallèlement, afin de réduire la dégradation des performances causée par les bruits ambients, une méthode d’adaptation de domaine adversaire est utilisée pour aligner de manière non supervisée les différences de distribution entre les flux audio bruités et les flux audio purs. Les résultats montrent qu’ADA-VAD atteint une augmentation moyenne de 3,6 points de pourcentage (p) et de 7 points de pourcentage (p) en AUC par rapport aux modèles entraînés à partir de caractéristiques manuellement extraites, sur le jeu de données AVA-speech et sur une base de données vocales synthétisées à partir d’une base de bruit inconnue, respectivement.