HyperAIHyperAI
vor 11 Tagen

ERANNs: Effiziente residuelle Audio-Neuronale Netze für die Audio-Mustererkennung

Sergey Verbitskiy, Vladimir Berikov, Viacheslav Vyshegorodtsev
ERANNs: Effiziente residuelle Audio-Neuronale Netze für die Audio-Mustererkennung
Abstract

Die Audio-Mustererkennung (Audio Pattern Recognition, APR) ist ein bedeutendes Forschungsthema und findet Anwendung in mehreren Bereichen, die unser tägliches Leben betreffen. Daher ist die Entwicklung genauer und effizienter APR-Systeme erforderlich, da sie in praktischen Anwendungen von großem Nutzen sind. In diesem Artikel stellen wir eine neue Architektur für konvolutionale neuronale Netze (Convolutional Neural Networks, CNN) sowie eine Methode zur Verbesserung der Inferenzgeschwindigkeit von CNN-basierten Systemen für APR-Aufgaben vor. Zudem zeigt sich in Experimenten an vier Audio-Datensätzen, dass die vorgeschlagene Methode die Leistung unserer Systeme signifikant steigern kann. Darüber hinaus untersuchen wir den Einfluss von Datenaugmentierungstechniken und Transfer Learning auf die Systemleistung. Unser bestes System erreicht auf dem AudioSet-Datensatz eine mittlere Genauigkeit (mean average precision, mAP) von 0,450. Obwohl dieser Wert unter dem der state-of-the-art-Systeme liegt, ist unser vorgeschlagenes System 7,1-mal schneller und 9,7-mal kleiner. Auf den Datensätzen ESC-50, UrbanSound8K und RAVDESS erzielen wir jeweils state-of-the-art-Ergebnisse mit Genauigkeiten von 0,961, 0,908 und 0,748. Unser System für den ESC-50-Datensatz ist 1,7-mal schneller und 2,3-mal kleiner als das vorherige beste System. Für den RAVDESS-Datensatz ist unser System 3,3-mal kleiner als das bisher beste Modell. Wir bezeichnen unsere Systeme als „Efficient Residual Audio Neural Networks“.

ERANNs: Effiziente residuelle Audio-Neuronale Netze für die Audio-Mustererkennung | Neueste Forschungsarbeiten | HyperAI