HyperAIHyperAI
vor 17 Tagen

SubSpectral Normalisierung für die Verarbeitung neuraler Audio-Daten

Simyung Chang, Hyoungwoo Park, Janghoon Cho, Hyunsin Park, Sungrack Yun, Kyuwoong Hwang
SubSpectral Normalisierung für die Verarbeitung neuraler Audio-Daten
Abstract

Faltungsschaltungen (Convolutional Neural Networks) werden in zahlreichen Bereichen des maschinellen Lernens breit eingesetzt. Bei der Bildverarbeitung werden Merkmale durch Anwendung zweidimensionaler Faltungen auf alle räumlichen Dimensionen der Eingabe gewonnen. Im audiovisuellen Kontext weisen jedoch frequenzdomänenbasierte Eingaben wie Mel-Spektrogramme im Frequenzbereich spezifische und einzigartige Eigenschaften auf. Daher besteht die Notwendigkeit einer Methode, die es der zweidimensionalen Faltungsschicht ermöglicht, die Frequenzdimension unterschiedlich zu behandeln. In dieser Arbeit stellen wir SubSpectral Normalization (SSN) vor, die die Eingabefrequenzdimension in mehrere Gruppen (Unterbandbreiten) unterteilt und für jede Gruppe eine separate Normalisierung durchführt. Zudem integriert SSN eine affin-lineare Transformation, die jeweils auf jede Gruppe angewendet werden kann. Unser Ansatz beseitigt die Inter-Frequenz-Abweichung, während das Netzwerk gleichzeitig frequenzbewusste Merkmale lernt. In Experimenten mit Audiodaten konnten wir beobachten, dass SSN die Leistungsfähigkeit des Netzwerks effizient verbessert.