Umgebungsgeräuschklassifizierung am Rande: Ein Prozess für tiefe akustische Netze auf extrem ressourcenbeschränkten Geräten

Erhebliche Anstrengungen werden unternommen, um den neuesten Stand der Technik in Bezug auf Klassifizierung und Erkennung auf Edge-Geräte mit extrem eingeschränkten Ressourcen (Speicher, Geschwindigkeit und Fehlen von GPU-Unterstützung) zu bringen. In dieser Arbeit präsentieren wir das erste tiefe Netzwerk für akustische Erkennung, das klein, flexibel und kompressionsfreundlich ist und dennoch den neuesten Stand der Technik bei der Klassifikation roher Audio-Daten erreicht. Anstatt eine einmalige Lösung manuell zu entwickeln, stellen wir einen generischen Prozess vor, der ein großes tiefes Faltungsnetzwerk automatisch durch Kompression und Quantisierung in ein Netzwerk für ressourcenarme Edge-Geräte umwandelt. Nach der Einführung von ACDNet, das eine Genauigkeit über dem aktuellen Stand der Technik auf ESC-10 (96,65 %), ESC-50 (87,10 %), UrbanSound8K (84,45 %) und AudioEvent (92,57 %) erzielt, beschreiben wir den Kompressionsprozess und zeigen, dass es uns ermöglicht, eine Reduzierung des Netzwerks um 97,22 % in Bezug auf die Größe und um 97,28 % in Bezug auf die FLOPs zu erreichen, während wir gleichzeitig nahezu den aktuellen Stand der Technik in Genauigkeit beibehalten: 96,25 % (ESC-10), 83,65 % (ESC-50), 78,27 % (UrbanSound8K) und 89,69 % (AudioEvent). Wir beschreiben eine erfolgreiche Implementierung auf einem standardisierten Einplatinen-Mikrocontroller und berichten über erfolgreiche Tests auf realen Datensätzen über Labor-Benchmarks hinaus.