HyperAIHyperAI

Command Palette

Search for a command to run...

ADA-VAD: Unpaired Adversarial Domain Adaptation für noise-robuste Voice Activity Detection

Jong Hwan Ko Jiho Chang Taesoo Kim

Zusammenfassung

Die Spracherkennung von Aktivität (Voice Activity Detection, VAD) wird zu einem essenziellen Front-End-Element in verschiedenen Sprachverarbeitungssystemen. Da diese Systeme häufig in Umgebungen mit unterschiedlichen Rauschtypen und niedrigen Signal-Rausch-Verhältnissen (SNR) eingesetzt werden, sollte eine effektive VAD-Methode robust in der Erkennung von Sprachregionen in störanfälligen Hintergrundsignalen sein. In diesem Beitrag stellen wir adversarial domain adaptive VAD (ADA-VAD) vor, eine auf tiefen neuronalen Netzen (DNN) basierende VAD-Methode, die sich durch hohe Robustheit gegenüber Audioaufnahmen mit verschiedenen Rauschtypen und niedrigen SNR auszeichnet. Die vorgeschlagene Methode trainiert DNN-Modelle für die VAD-Aufgabe im überwachten Lernansatz. Gleichzeitig wird zur Minderung der Leistungsverschlechterung durch Hintergrundgeräusche die adversarische Domänenanpassung eingesetzt, um die Domänenunterschiede zwischen rauschbehafteten und reinen Audioströmen unsupervisiert zu minimieren. Die Ergebnisse zeigen, dass ADA-VAD im Durchschnitt um 3,6%p und 7%p höhere AUC-Werte erreicht als Modelle, die mit manuell extrahierten Merkmalen auf dem AVA-Speech-Datensatz und einer mit einem bisher nicht gesehenen Rauschdatensatz synthetisierten Sprachdatenbank trainiert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp