HyperAIHyperAI

Command Palette

Search for a command to run...

ADA-VAD : Adaptation de domaine adversaire non appariée pour une détection de l'activité vocale robuste au bruit

Jong Hwan Ko Jiho Chang Taesoo Kim

Résumé

La détection d’activité vocale (VAD) devient un composant essentiel en amont dans divers systèmes de traitement de la parole. Étant donné que ces systèmes sont fréquemment déployés dans des environnements présentant une grande variété de types de bruit et des rapports signal sur bruit (SNR) faibles, une méthode VAD efficace doit être capable de détecter robustement les régions de parole au sein de signaux bruités. Dans cet article, nous proposons une méthode VAD basée sur l’adaptation de domaine adversaire (ADA-VAD), une approche VAD fondée sur un réseau de neurones profond (DNN) particulièrement robuste face à des échantillons audio présentant divers types de bruit et des SNR faibles. La méthode proposée entraîne les modèles DNN pour une tâche VAD de manière supervisée. Parallèlement, afin de réduire la dégradation des performances causée par les bruits ambients, une méthode d’adaptation de domaine adversaire est utilisée pour aligner de manière non supervisée les différences de distribution entre les flux audio bruités et les flux audio purs. Les résultats montrent qu’ADA-VAD atteint une augmentation moyenne de 3,6 points de pourcentage (p) et de 7 points de pourcentage (p) en AUC par rapport aux modèles entraînés à partir de caractéristiques manuellement extraites, sur le jeu de données AVA-speech et sur une base de données vocales synthétisées à partir d’une base de bruit inconnue, respectivement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ADA-VAD : Adaptation de domaine adversaire non appariée pour une détection de l'activité vocale robuste au bruit | Articles | HyperAI