End-to-End Keyword Spotting unter Verwendung von Neural Architecture Search und Quantization

Diese Arbeit stellt ein neuronales Architektursuchverfahren (Neural Architecture Search, NAS) für die automatische Entdeckung end-to-end-Keyword-Spotting-(KWS)-Modelle in ressourcenbeschränkten Umgebungen vor. Wir nutzen einen differentiierbaren NAS-Ansatz, um die Struktur von Faltungsneuralen Netzen (Convolutional Neural Networks, CNNs) zu optimieren, die direkt auf rohen Audio-Signalwellenformen operieren. Nachdem mit NAS ein geeignetes KWS-Modell identifiziert wurde, führen wir eine Quantisierung von Gewichten und Aktivierungen durch, um den Speicherbedarf zu reduzieren. Wir führen umfangreiche Experimente auf dem Google Speech Commands-Datensatz durch. Insbesondere vergleichen wir unseren end-to-end-Ansatz mit Systemen, die auf mel-frequenz-cepstralen Koeffizienten (MFCC) basieren. Bei der Quantisierung vergleichen wir die feste Bitbreite-Quantisierung mit der trainierten Bitbreite-Quantisierung. Allein durch den Einsatz von NAS erreichen wir ein äußerst effizientes Modell mit einer Genauigkeit von 95,55 %, wobei lediglich 75,7 k Parameter und 13,6 M Operationen benötigt werden. Mit der trainierten Bitbreite-Quantisierung erreicht dasselbe Modell eine Testgenauigkeit von 93,76 %, während im Durchschnitt nur 2,91 Bit pro Aktivierung und 2,51 Bit pro Gewicht verwendet werden.