Zeitliche Faltung für Echtzeit-Schlüsselworterkennung auf Mobilgeräten

Schlüsselworterkennung (Keyword Spotting, KWS) spielt eine entscheidende Rolle bei der Aktivierung von sprachbasierten Benutzerinteraktionen auf Smart Devices. Neuere Entwicklungen im Bereich des Deep Learning haben zur weit verbreiteten Anwendung von Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs) in KWS-Systemen geführt, aufgrund ihrer außergewöhnlichen Genauigkeit und Robustheit. Die Hauptausforderung, mit der KWS-Systeme konfrontiert sind, besteht in der Balance zwischen hoher Genauigkeit und niedriger Latenz. Leider gibt es bisher wenig quantitative Analysen zur tatsächlichen Latenz von KWS-Modellen auf mobilen Geräten. Dies ist besonders beunruhigend, da herkömmliche faltungsbasierte KWS-Ansätze bekanntlich eine große Anzahl von Operationen erfordern, um ein angemessenes Leistungslevel zu erreichen. In dieser Arbeit schlagen wir eine zeitliche Faltung für die Echtzeit-KWS auf mobilen Geräten vor. Im Gegensatz zu den meisten 2D-Faltungsbasierten KWS-Ansätzen, die eine tiefe Architektur benötigen, um sowohl das Niederfrequenz- als auch das Hochfrequenzspektrum vollständig zu erfassen, nutzen wir zeitliche Faltungen mit einer kompakten ResNet-Architektur. Am Google Speech Command Datensatz erreichen wir mehr als \textbf{385-fache} Beschleunigung auf dem Google Pixel 1 und übertreffen die Genauigkeit im Vergleich zum aktuellen Stand der Technik. Darüber hinaus veröffentlichen wir die Implementierung des vorgeschlagenen Modells sowie des Baseline-Modells, einschließlich eines End-to-End-Pipelines zur Modelltraining und -bewertung auf mobilen Geräten.