LHGNN: Lokale und höhere Ordnung Graph-Neuronale Netze für Audio-Klassifizierung und -Tagging

Transformer haben neue Maßstäbe in der Audioverarbeitung gesetzt, indem sie Selbst-Aufmerksamkeitsmechanismen nutzen, um komplexe Muster und Abhängigkeiten innerhalb von Audiodaten zu erfassen. Allerdings begrenzt ihr Fokus auf paarweise Interaktionen ihre Fähigkeit, die höheren Ordnungen von Beziehungen zu verarbeiten, die für die Identifizierung von eindeutigen Audioobjekten essentiell sind. Um diese Einschränkung zu beheben, stellt diese Arbeit das lokale Hochordnungs-Graph-Neurale Netzwerk (LHGNN) vor. Dieses graphbasierte Modell verbessert das Verständnis von Merkmalen, indem es lokale Nachbarschaftsinformationen mit höheren Ordnungen von Daten aus Fuzzy-C-Means-Clustern integriert, wodurch ein breiterer Spektrum von Audobeziehungen erfasst wird. Die Bewertung des Modells anhand dreier öffentlich zugänglicher Audiodatensätze zeigt, dass es bei weitem bessere Ergebnisse als Transformer-basierte Modelle liefert und dabei deutlich weniger Parameter verwendet. Darüber hinaus zeigt das LHGNN einen deutlichen Vorteil in Szenarien ohne ImageNet-Vortraining, was seine Effektivität und Effizienz in Umgebungen unterstreicht, in denen umfangreiche Vortrainingsdaten nicht verfügbar sind.