HyperAIHyperAI
vor 17 Tagen

Broadcasted Residual Learning für eine effiziente Keyword Spotting

Byeonggeun Kim, Simyung Chang, Jinkyu Lee, Dooyong Sung
Broadcasted Residual Learning für eine effiziente Keyword Spotting
Abstract

Keyword Spotting ist ein wichtiger Forschungsbereich, da er eine entscheidende Rolle bei der Aktivierung von Geräten und der Benutzerinteraktion auf intelligenten Geräten spielt. Es ist jedoch herausfordernd, Fehler zu minimieren, während gleichzeitig eine effiziente Ausführung auf Geräten mit begrenzten Ressourcen wie Mobiltelefonen gewährleistet wird. Wir präsentieren eine broadcastete Residual-Lernmethode, die eine hohe Genauigkeit bei geringem Modellgröße und geringem Rechenaufwand ermöglicht. Unser Ansatz konfiguriert die meisten Residualfunktionen als 1D zeitliche Faltung, ermöglicht jedoch gleichzeitig die Verwendung von 2D-Faltungen durch eine broadcastete Residual-Verbindung, die die zeitliche Ausgabe auf die Frequenz-Zeit-Dimension erweitert. Diese Residualabbildung erlaubt es dem Netzwerk, nützliche Audiofeatures effizienter darzustellen als herkömmliche Faltungsneuronale Netze, wobei der Rechenaufwand erheblich reduziert wird. Außerdem stellen wir eine neuartige Netzarchitektur, das Broadcasting-Residual-Netzwerk (BC-ResNet), basierend auf der broadcasteten Residual-Lernmethode vor und beschreiben, wie das Modell je nach verfügbaren Ressourcen des Zielgeräts skaliert werden kann. BC-ResNets erreichen auf den Google-Speech-Command-Datensätzen v1 und v2 jeweils den Stand der Technik mit einer Top-1-Accuracy von 98,0 % und 98,7 % und überzeugen konsistent gegenüber früheren Ansätzen bei geringerem Rechenaufwand und weniger Parametern. Der Quellcode ist unter https://github.com/Qualcomm-AI-research/bcresnet verfügbar.