Un détecteur hybride deactivité vocale basé sur CNN-BiLSTM

Cet article présente une nouvelle architecture hybride pour la détection d’activité vocale (VAD), intégrant à la fois des couches de réseau de neurones convolutifs (CNN) et des couches de mémoire à longue et courte durée bidirectionnelles (BiLSTM), entraînées de manière end-to-end. En outre, nous nous concentrons particulièrement sur l’optimisation de l’efficacité computationnelle de notre architecture afin d’assurer des performances robustes dans des conditions de bruit difficiles, dans un cadre fortement sous-ressourcé. Une validation croisée imbriquée en k-fold a été utilisée pour explorer l’espace des hyperparamètres, et le compromis entre les paramètres optimaux et la taille du modèle est discuté. L’impact de l’utilisation d’une couche BiLSTM par rapport à une couche LSTM unidirectionnelle sur la performance a également été évalué. Nous comparons nos systèmes à trois références établies sur le jeu de données AVA-Speech. Nous constatons que des modèles sensiblement plus petits, configurés avec des paramètres proches de l’optimal, atteignent des performances équivalentes à celles de modèles plus grands entraînés avec des paramètres optimaux. Les couches BiLSTM ont permis d’améliorer la précision par rapport aux couches unidirectionnelles d’environ 2 % en valeur absolue en moyenne. Avec un score AUC de 0,951, notre système dépasse toutes les références, y compris un système ResNet bien plus volumineux, notamment dans des conditions de bruit extrêmement difficiles.