HyperAIHyperAI
vor 2 Monaten

End-to-End-Umgebungsgeräuschklassifizierung mit einem eindimensionalen Faltungsneuralen Netzwerk

Abdoli, Sajjad ; Cardinal, Patrick ; Koerich, Alessandro Lameiras
End-to-End-Umgebungsgeräuschklassifizierung mit einem eindimensionalen
  Faltungsneuralen Netzwerk
Abstract

In dieser Arbeit stellen wir einen end-to-end Ansatz für die Klassifizierung von Umgebungsgeräuschen vor, der auf einem eindimensionalen Faltungsneuralen Netzwerk (CNN) basiert und eine Darstellung direkt aus dem Audiosignal lernt. Mehrere Faltungsschichten werden verwendet, um die feine zeitliche Struktur des Signals zu erfassen und vielfältige Filter zu lernen, die für die Klassifizierungsaufgabe relevant sind. Der vorgeschlagene Ansatz kann Audiosignale beliebiger Länge verarbeiten, da er das Signal mit einem gleitenden Fenster in überlappende Frames unterteilt. Verschiedene Architekturen mit unterschiedlichen Eingabegrößen wurden evaluiert, darunter die Initialisierung der ersten Faltungsschicht mit einer Gammaton-Filterbank, die die menschliche Hörfilterantwort im Cochlea modelliert. Die Leistung des vorgeschlagenen end-to-end Ansatzes bei der Klassifizierung von Umgebungsgeräuschen wurde am UrbanSound8k-Datensatz evaluiert, und die experimentellen Ergebnisse haben gezeigt, dass er eine durchschnittliche Genauigkeit von 89 % erreicht. Somit übertrifft der vorgeschlagene Ansatz die meisten der aktuellen Ansätze, die handgefertigte Merkmale oder zweidimensionale Darstellungen als Eingabe verwenden. Darüber hinaus hat der vorgeschlagene Ansatz im Vergleich zu anderen in der Literatur gefundenen Architekturen eine geringe Anzahl von Parametern, was den Datenumfang reduziert, der für das Training erforderlich ist.

End-to-End-Umgebungsgeräuschklassifizierung mit einem eindimensionalen Faltungsneuralen Netzwerk | Neueste Forschungsarbeiten | HyperAI