Command Palette
Search for a command to run...
End-to-End Keyword Spotting unter Verwendung von Neural Architecture Search und Quantization
End-to-End Keyword Spotting unter Verwendung von Neural Architecture Search und Quantization
David Peter Wolfgang Roth Franz Pernkopf
Zusammenfassung
Diese Arbeit stellt ein neuronales Architektursuchverfahren (Neural Architecture Search, NAS) für die automatische Entdeckung end-to-end-Keyword-Spotting-(KWS)-Modelle in ressourcenbeschränkten Umgebungen vor. Wir nutzen einen differentiierbaren NAS-Ansatz, um die Struktur von Faltungsneuralen Netzen (Convolutional Neural Networks, CNNs) zu optimieren, die direkt auf rohen Audio-Signalwellenformen operieren. Nachdem mit NAS ein geeignetes KWS-Modell identifiziert wurde, führen wir eine Quantisierung von Gewichten und Aktivierungen durch, um den Speicherbedarf zu reduzieren. Wir führen umfangreiche Experimente auf dem Google Speech Commands-Datensatz durch. Insbesondere vergleichen wir unseren end-to-end-Ansatz mit Systemen, die auf mel-frequenz-cepstralen Koeffizienten (MFCC) basieren. Bei der Quantisierung vergleichen wir die feste Bitbreite-Quantisierung mit der trainierten Bitbreite-Quantisierung. Allein durch den Einsatz von NAS erreichen wir ein äußerst effizientes Modell mit einer Genauigkeit von 95,55 %, wobei lediglich 75,7 k Parameter und 13,6 M Operationen benötigt werden. Mit der trainierten Bitbreite-Quantisierung erreicht dasselbe Modell eine Testgenauigkeit von 93,76 %, während im Durchschnitt nur 2,91 Bit pro Aktivierung und 2,51 Bit pro Gewicht verwendet werden.