HyperAIHyperAI
vor 2 Monaten

EfficientLEAF: Ein schnelleres lernfähiges Audio-Frontend von fragwürdiger Nutzbarkeit

Schlüter, Jan ; Gutenbrunner, Gerald
EfficientLEAF: Ein schnelleres lernfähiges Audio-Frontend von fragwürdiger Nutzbarkeit
Abstract

Im Bereich der Audioklassifizierung bedecken differenzierbare Auditory Filterbanks mit wenigen Parametern den Mittelweg zwischen hartkodierten Spektrogrammen und rohem Audio. LEAF (arXiv:2101.08596), eine auf Gabor basierende Filterbank in Kombination mit Per-Channel Energy Normalization (PCEN), hat vielversprechende Ergebnisse gezeigt, ist aber rechenintensiv. Durch die Verwendung ungleichmäßiger Faltungskerngrößen und -schritte sowie durch den Ersatz von PCEN durch besser parallelisierbare Operationen können wir effizientere Ergebnisse erzielen. In Experimenten zu sechs Audio-Klassifizierungsaufgaben erreicht unser Frontend die Genauigkeit von LEAF bei nur 3 % der Kosten, jedoch schlagen beide Methoden nicht konsistent eine feste Mel-Filterbank. Die Suche nach lernfähigen Audio-Frontends ist damit noch nicht abgeschlossen.

EfficientLEAF: Ein schnelleres lernfähiges Audio-Frontend von fragwürdiger Nutzbarkeit | Neueste Forschungsarbeiten | HyperAI