SG-VAD: Stochastic Gates-basierte Sprachaktivitätserkennung

Wir schlagen ein neuartiges Modell zur Sprachaktivitätserkennung (Voice Activity Detection, VAD) in einer ressourcenarmen Umgebung vor. Unser zentrales Konzept besteht darin, die VAD als Entrauschungsaufgabe zu modellieren und ein Netzwerk zu entwerfen, das darauf abzielt, störende Merkmale für eine Spracherkennungsaufgabe zu identifizieren. Das Modell wird trainiert, gleichzeitig irrelevante Merkmale zu erkennen und gleichzeitig die Art des Sprachereignisses vorherzusagen. Unser Modell verfügt lediglich über 7,8 K Parameter, übertrifft die bisher vorgeschlagenen Methoden auf dem AVA-Speech-Evaluationssatz und liefert vergleichbare Ergebnisse auf dem HAVIC-Datensatz. Wir präsentieren die Architektur, die experimentellen Ergebnisse sowie eine Ablationsstudie zu den einzelnen Komponenten des Modells. Den Quellcode und die Modelle stellen wir hier zur Verfügung: https://www.github.com/jsvir/vad.