HyperAIHyperAI
il y a 16 jours

SG-VAD : Détection de l'activité vocale basée sur des portes stochastiques

Jonathan Svirsky, Ofir Lindenbaum
SG-VAD : Détection de l'activité vocale basée sur des portes stochastiques
Résumé

Nous proposons un nouveau modèle de détection d’activité vocale (VAD) adapté à un environnement à ressources limitées. Notre idée principale consiste à modéliser la VAD comme une tâche de débruitage, et à concevoir un réseau capable d’identifier les caractéristiques perturbatrices pour une tâche de classification de parole. Nous entraînons le modèle afin qu’il détecte simultanément les caractéristiques non pertinentes tout en prédisant le type d’événement vocal. Ce modèle ne comporte que 7,8 K paramètres, dépasse les méthodes précédemment proposées sur l’ensemble d’évaluation AVA-Speech, et obtient des résultats compétitifs sur le jeu de données HAVIC. Nous présentons son architecture, les résultats expérimentaux ainsi qu’une étude d’ablation des composants du modèle. Le code source et les modèles sont disponibles à l’adresse suivante : https://www.github.com/jsvir/vad.

SG-VAD : Détection de l'activité vocale basée sur des portes stochastiques | Articles de recherche récents | HyperAI