HyperAIHyperAI
vor 11 Tagen

SG-VAD: Stochastic Gates-basierte Sprachaktivitätserkennung

Jonathan Svirsky, Ofir Lindenbaum
SG-VAD: Stochastic Gates-basierte Sprachaktivitätserkennung
Abstract

Wir schlagen ein neuartiges Modell zur Sprachaktivitätserkennung (Voice Activity Detection, VAD) in einer ressourcenarmen Umgebung vor. Unser zentrales Konzept besteht darin, die VAD als Entrauschungsaufgabe zu modellieren und ein Netzwerk zu entwerfen, das darauf abzielt, störende Merkmale für eine Spracherkennungsaufgabe zu identifizieren. Das Modell wird trainiert, gleichzeitig irrelevante Merkmale zu erkennen und gleichzeitig die Art des Sprachereignisses vorherzusagen. Unser Modell verfügt lediglich über 7,8 K Parameter, übertrifft die bisher vorgeschlagenen Methoden auf dem AVA-Speech-Evaluationssatz und liefert vergleichbare Ergebnisse auf dem HAVIC-Datensatz. Wir präsentieren die Architektur, die experimentellen Ergebnisse sowie eine Ablationsstudie zu den einzelnen Komponenten des Modells. Den Quellcode und die Modelle stellen wir hier zur Verfügung: https://www.github.com/jsvir/vad.

SG-VAD: Stochastic Gates-basierte Sprachaktivitätserkennung | Neueste Forschungsarbeiten | HyperAI