HyperAIHyperAI
vor 16 Tagen

Mehrdimensionale kantenbasierte Darstellungslernung von Audioereignis-Beziehungsgraphen für die Klassifikation akustischer Szenen

Yuanbo Hou, Siyang Song, Chuang Yu, Yuxin Song, Wenwu Wang, Dick Botteldooren
Mehrdimensionale kantenbasierte Darstellungslernung von Audioereignis-Beziehungsgraphen für die Klassifikation akustischer Szenen
Abstract

Die meisten bestehenden tiefen Lernansätze für akustische Szenenklassifikation (Acoustic Scene Classification, ASC) nutzen direkt die aus Spektrogrammen extrahierten Darstellungen, um Ziel-Szenen zu identifizieren. Dabei wird jedoch wenig Aufmerksamkeit auf die in der Szene auftretenden akustischen Ereignisse gelegt, obwohl diese entscheidende semantische Informationen liefern. In dieser Arbeit wird erstmals untersucht, ob echte akustische Szenen zuverlässig allein anhand von Merkmalen erkannt werden können, die eine begrenzte Anzahl akustischer Ereignisse beschreiben. Um die aufgabenbezogenen Beziehungen zwischen grobgranularen akustischen Szenen und feingranularen akustischen Ereignissen zu modellieren, schlagen wir einen Rahmen für die ereignisbasierte Graphdarstellungslernung (Event Relational Graph Representation Learning, ERGL) für die ASC vor. Konkret lernt ERGL eine Graphdarstellung einer akustischen Szene aus dem Eingabestrom, wobei die Embedding jedes Ereignisses als Knoten fungiert und die zwischen den Ereignis-Embeddings bestehenden Beziehungshinweise durch eine gelernte mehrdimensionale Kantenmerkmalsbeschreibung dargestellt werden. Experimente an einem polyphonen akustischen Szenen-Datensatz zeigen, dass der vorgeschlagene ERGL-Ansatz eine konkurrenzfähige Leistung bei der ASC erzielt, indem lediglich eine begrenzte Anzahl von Ereignis-Embeddings verwendet wird, ohne jegliche Datenaugmentation. Die Gültigkeit des vorgeschlagenen ERGL-Rahmens belegt die Machbarkeit der Erkennung vielfältiger akustischer Szenen basierend auf einem ereignisbasierten Graphen. Unser Quellcode ist auf unserer Homepage verfügbar (https://github.com/Yuanbo2020/ERGL).

Mehrdimensionale kantenbasierte Darstellungslernung von Audioereignis-Beziehungsgraphen für die Klassifikation akustischer Szenen | Neueste Forschungsarbeiten | HyperAI