Command Palette
Search for a command to run...
EdgeCRNN: ein am Edge Computing ausgerichtetes Modell zur akustischen Merkmalsverbesserung für Keyword Spotting
EdgeCRNN: ein am Edge Computing ausgerichtetes Modell zur akustischen Merkmalsverbesserung für Keyword Spotting
Yamin Wen Kai Ye Shunzhi Yang Zheng Gong Yungen Wei
Zusammenfassung
Keyword Spotting (KWS) ist ein bedeutender Zweig der Automatischen Spracherkennung (ASR) und wird weithin in Edge-Computing-Geräten eingesetzt. Ziel von KWS ist es, eine hohe Genauigkeit bei einem niedrigen Falschalarm-Rate (False Alarm Rate, FAR) zu erreichen, gleichzeitig aber die Kosten hinsichtlich Speicher, Berechnungsaufwand und Latenz zu minimieren. Aufgrund der begrenzten Ressourcen in Edge-Computing-Geräten stellen jedoch erhebliche Herausforderungen für KWS-Anwendungen dar. Leichte Modelle und Architekturen für tiefes Lernen haben bereits gute Ergebnisse in der KWS-Branche erzielt, wobei eine effiziente Leistung gewährleistet wird. In diesem Artikel präsentieren wir eine neue Architektur für ein Faltungs-Rekurrentes Neuronales Netzwerk (Convolutional Recurrent Neural Network, CRNN), namens EdgeCRNN, speziell für Edge-Computing-Geräte entwickelt. EdgeCRNN basiert auf tiefenweise separierbaren Faltungen und einer Residual-Struktur und integriert eine Merkmalsverstärkungsmethode. Auf dem Google Speech Commands Datensatz zeigen die experimentellen Ergebnisse, dass EdgeCRNN auf einem Raspberry Pi 3B+ eine Verarbeitungsgeschwindigkeit von 11,1 Audiodaten pro Sekunde erreicht – das entspricht einer 2,2-fachen Leistung im Vergleich zu Tpool2. Im Vergleich zu Tpool2 erreicht EdgeCRNN eine Genauigkeit von 98,05 %, wobei die Leistung insgesamt ebenfalls konkurrenzfähig ist.