HyperAIHyperAI

Command Palette

Search for a command to run...

SubSpectral Normalisierung für die Verarbeitung neuraler Audio-Daten

Simyung Chang Hyoungwoo Park Janghoon Cho Hyunsin Park Sungrack Yun Kyuwoong Hwang

Zusammenfassung

Faltungsschaltungen (Convolutional Neural Networks) werden in zahlreichen Bereichen des maschinellen Lernens breit eingesetzt. Bei der Bildverarbeitung werden Merkmale durch Anwendung zweidimensionaler Faltungen auf alle räumlichen Dimensionen der Eingabe gewonnen. Im audiovisuellen Kontext weisen jedoch frequenzdomänenbasierte Eingaben wie Mel-Spektrogramme im Frequenzbereich spezifische und einzigartige Eigenschaften auf. Daher besteht die Notwendigkeit einer Methode, die es der zweidimensionalen Faltungsschicht ermöglicht, die Frequenzdimension unterschiedlich zu behandeln. In dieser Arbeit stellen wir SubSpectral Normalization (SSN) vor, die die Eingabefrequenzdimension in mehrere Gruppen (Unterbandbreiten) unterteilt und für jede Gruppe eine separate Normalisierung durchführt. Zudem integriert SSN eine affin-lineare Transformation, die jeweils auf jede Gruppe angewendet werden kann. Unser Ansatz beseitigt die Inter-Frequenz-Abweichung, während das Netzwerk gleichzeitig frequenzbewusste Merkmale lernt. In Experimenten mit Audiodaten konnten wir beobachten, dass SSN die Leistungsfähigkeit des Netzwerks effizient verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SubSpectral Normalisierung für die Verarbeitung neuraler Audio-Daten | Paper | HyperAI