HyperAIHyperAI

Command Palette

Search for a command to run...

Ein hybrider CNN-BiLSTM-Sprachaktivitätsdetektor

Nicholas Wilkinson Thomas Niesler

Zusammenfassung

Diese Arbeit präsentiert eine neue hybride Architektur für die Sprachaktivitätserkennung (Voice Activity Detection, VAD), die sowohl konvolutionale neuronale Netze (Convolutional Neural Networks, CNN) als auch bidirektionale lang- kurze Gedächtnisnetze (Bidirectional Long Short-Term Memory, BiLSTM) beinhaltet und end-to-end trainiert wird. Darüber hinaus legen wir besonderen Wert auf die Optimierung der rechnerischen Effizienz unserer Architektur, um eine robuste Leistung unter schwierigen, realen Geräuschbedingungen in einem stark ressourcenarmen Umfeld zu gewährleisten. Zur Exploration des Hyperparameter-Raums wurde eine verschachtelte k-fache Kreuzvalidierung eingesetzt, und der Kompromiss zwischen optimalen Parametern und Modellgröße wird diskutiert. Zudem wird der Einfluss einer BiLSTM-Schicht im Vergleich zu einer einrichtungsspezifischen LSTM-Schicht analysiert. Unsere Systeme werden auf dem AVA-Speech-Datensatz mit drei etablierten Baselines verglichen. Wir stellen fest, dass signifikant kleinere Modelle mit annähernd optimalen Parametern die Leistung von größeren Modellen erreichen, die mit optimalen Parametern trainiert wurden. BiLSTM-Schichten erweisen sich im Durchschnitt gegenüber einrichtungsspezifischen LSTM-Schichten in Bezug auf die Genauigkeit um ca. 2 Prozentpunkte positiv. Mit einer AUC von 0,951 übertrifft unser System alle Baselines, einschließlich eines viel größeren ResNet-Modells, insbesondere unter schwierigen Geräuschbedingungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein hybrider CNN-BiLSTM-Sprachaktivitätsdetektor | Paper | HyperAI