Effektive Kombination von DenseNet und BiLSTM für Keyword Spotting
Keyword Spotting (KWS) ist eine zentrale Komponente der Mensch-Computer-Interaktion in intelligenten Endgeräten und Servicerobotern, deren Ziel darin besteht, die Erkennungsgenauigkeit zu maximieren, während gleichzeitig die Modellgröße klein gehalten wird. In diesem Artikel schlagen wir aufgrund der starken Fähigkeit von DenseNet zur Extraktion lokaler Merkmalskarten eine neue Netzarchitektur (DenseNet-BiLSTM) für KWS vor. In unserem Ansatz wird DenseNet hauptsächlich zur Gewinnung lokaler Merkmale eingesetzt, während der BiLSTM zur Erfassung zeitserieller Merkmale herangezogen wird. Allgemein wird DenseNet in Aufgaben der Computer Vision eingesetzt und kann für Sprachaudiodaten kontextuelle Informationen beeinträchtigen. Um DenseNet für KWS geeigneter zu machen, schlagen wir eine Variante vor, die als DenseNet-Speech bezeichnet wird und in den Übergangsschichten den Pooling-Vorgang entlang der Zeitachse entfernt, um die zeitliche Struktur der Sprachsignale zu bewahren. Zudem verwendet unser DenseNet-Speech weniger dichte Blöcke und Filter, um das Modell kompakt zu halten und die Rechenzeit auf mobilen Geräten zu reduzieren. Die experimentellen Ergebnisse zeigen, dass die Merkmalskarten von DenseNet-Speech die zeitliche Struktur der Sprache gut erhalten. Unser Ansatz erreicht eine höhere Genauigkeit im Vergleich zu aktuellen State-of-the-Art-Methoden auf dem Google Speech Commands-Datensatz. DenseNet-BiLSTM erreicht bei der Erkennung von 20 Befehlen eine Genauigkeit von 96,6 % mit lediglich 223.000 trainierbaren Parametern.