HyperAIHyperAI

Command Palette

Search for a command to run...

SG-VAD: Stochastic Gates-basierte Sprachaktivitätserkennung

Jonathan Svirsky Ofir Lindenbaum

Zusammenfassung

Wir schlagen ein neuartiges Modell zur Sprachaktivitätserkennung (Voice Activity Detection, VAD) in einer ressourcenarmen Umgebung vor. Unser zentrales Konzept besteht darin, die VAD als Entrauschungsaufgabe zu modellieren und ein Netzwerk zu entwerfen, das darauf abzielt, störende Merkmale für eine Spracherkennungsaufgabe zu identifizieren. Das Modell wird trainiert, gleichzeitig irrelevante Merkmale zu erkennen und gleichzeitig die Art des Sprachereignisses vorherzusagen. Unser Modell verfügt lediglich über 7,8 K Parameter, übertrifft die bisher vorgeschlagenen Methoden auf dem AVA-Speech-Evaluationssatz und liefert vergleichbare Ergebnisse auf dem HAVIC-Datensatz. Wir präsentieren die Architektur, die experimentellen Ergebnisse sowie eine Ablationsstudie zu den einzelnen Komponenten des Modells. Den Quellcode und die Modelle stellen wir hier zur Verfügung: https://www.github.com/jsvir/vad.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp