HyperAIHyperAI

Command Palette

Search for a command to run...

SG-VAD : Détection de l'activité vocale basée sur des portes stochastiques

Jonathan Svirsky Ofir Lindenbaum

Résumé

Nous proposons un nouveau modèle de détection d’activité vocale (VAD) adapté à un environnement à ressources limitées. Notre idée principale consiste à modéliser la VAD comme une tâche de débruitage, et à concevoir un réseau capable d’identifier les caractéristiques perturbatrices pour une tâche de classification de parole. Nous entraînons le modèle afin qu’il détecte simultanément les caractéristiques non pertinentes tout en prédisant le type d’événement vocal. Ce modèle ne comporte que 7,8 K paramètres, dépasse les méthodes précédemment proposées sur l’ensemble d’évaluation AVA-Speech, et obtient des résultats compétitifs sur le jeu de données HAVIC. Nous présentons son architecture, les résultats expérimentaux ainsi qu’une étude d’ablation des composants du modèle. Le code source et les modèles sont disponibles à l’adresse suivante : https://www.github.com/jsvir/vad.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp