HyperAIHyperAI
vor 12 Tagen

ADA-VAD: Unpaired Adversarial Domain Adaptation für noise-robuste Voice Activity Detection

{Jong Hwan Ko, Jiho Chang, Taesoo Kim}
ADA-VAD: Unpaired Adversarial Domain Adaptation für noise-robuste Voice Activity Detection
Abstract

Die Spracherkennung von Aktivität (Voice Activity Detection, VAD) wird zu einem essenziellen Front-End-Element in verschiedenen Sprachverarbeitungssystemen. Da diese Systeme häufig in Umgebungen mit unterschiedlichen Rauschtypen und niedrigen Signal-Rausch-Verhältnissen (SNR) eingesetzt werden, sollte eine effektive VAD-Methode robust in der Erkennung von Sprachregionen in störanfälligen Hintergrundsignalen sein. In diesem Beitrag stellen wir adversarial domain adaptive VAD (ADA-VAD) vor, eine auf tiefen neuronalen Netzen (DNN) basierende VAD-Methode, die sich durch hohe Robustheit gegenüber Audioaufnahmen mit verschiedenen Rauschtypen und niedrigen SNR auszeichnet. Die vorgeschlagene Methode trainiert DNN-Modelle für die VAD-Aufgabe im überwachten Lernansatz. Gleichzeitig wird zur Minderung der Leistungsverschlechterung durch Hintergrundgeräusche die adversarische Domänenanpassung eingesetzt, um die Domänenunterschiede zwischen rauschbehafteten und reinen Audioströmen unsupervisiert zu minimieren. Die Ergebnisse zeigen, dass ADA-VAD im Durchschnitt um 3,6%p und 7%p höhere AUC-Werte erreicht als Modelle, die mit manuell extrahierten Merkmalen auf dem AVA-Speech-Datensatz und einer mit einem bisher nicht gesehenen Rauschdatensatz synthetisierten Sprachdatenbank trainiert wurden.

ADA-VAD: Unpaired Adversarial Domain Adaptation für noise-robuste Voice Activity Detection | Neueste Forschungsarbeiten | HyperAI