HyperAIHyperAI
vor 13 Tagen

Ein hybrider CNN-BiLSTM-Sprachaktivitätsdetektor

Nicholas Wilkinson, Thomas Niesler
Ein hybrider CNN-BiLSTM-Sprachaktivitätsdetektor
Abstract

Diese Arbeit präsentiert eine neue hybride Architektur für die Sprachaktivitätserkennung (Voice Activity Detection, VAD), die sowohl konvolutionale neuronale Netze (Convolutional Neural Networks, CNN) als auch bidirektionale lang- kurze Gedächtnisnetze (Bidirectional Long Short-Term Memory, BiLSTM) beinhaltet und end-to-end trainiert wird. Darüber hinaus legen wir besonderen Wert auf die Optimierung der rechnerischen Effizienz unserer Architektur, um eine robuste Leistung unter schwierigen, realen Geräuschbedingungen in einem stark ressourcenarmen Umfeld zu gewährleisten. Zur Exploration des Hyperparameter-Raums wurde eine verschachtelte k-fache Kreuzvalidierung eingesetzt, und der Kompromiss zwischen optimalen Parametern und Modellgröße wird diskutiert. Zudem wird der Einfluss einer BiLSTM-Schicht im Vergleich zu einer einrichtungsspezifischen LSTM-Schicht analysiert. Unsere Systeme werden auf dem AVA-Speech-Datensatz mit drei etablierten Baselines verglichen. Wir stellen fest, dass signifikant kleinere Modelle mit annähernd optimalen Parametern die Leistung von größeren Modellen erreichen, die mit optimalen Parametern trainiert wurden. BiLSTM-Schichten erweisen sich im Durchschnitt gegenüber einrichtungsspezifischen LSTM-Schichten in Bezug auf die Genauigkeit um ca. 2 Prozentpunkte positiv. Mit einer AUC von 0,951 übertrifft unser System alle Baselines, einschließlich eines viel größeren ResNet-Modells, insbesondere unter schwierigen Geräuschbedingungen.

Ein hybrider CNN-BiLSTM-Sprachaktivitätsdetektor | Neueste Forschungsarbeiten | HyperAI