2달 전

EfficientLEAF: 더 빠른 학습 가능한 오디오 프론트엔드의 의심스러운 활용

Schlüter, Jan ; Gutenbrunner, Gerald
EfficientLEAF: 더 빠른 학습 가능한 오디오 프론트엔드의 의심스러운 활용
초록

오디오 분류에서 적은 매개변수를 가진 미분 가능한 청각 필터뱅크는 하드 코딩된 스펙트로그램과 원시 오디오 사이의 중간 지점을 다룹니다. Gabor 기반 필터뱅크와 채널별 에너지 정규화(PCEN)를 결합한 LEAF(arXiv:2101.08596)는 유망한 결과를 보여주었지만, 계산적으로 비용이 많이 듭니다. 비균일한 컨볼루션 커널 크기와 스트라이드를 사용하고, PCEN을 더 나은 병렬화가 가능한 연산으로 대체함으로써, 우리는 비용을 줄이면서 유사한 결과를 얻을 수 있습니다. 6개의 오디오 분류 작업에 대한 실험에서, 우리의 프론트엔드는 LEAF의 정확도와 일치하면서 그 비용의 3%만을 필요로 하지만, 둘 다 고정된 멜 필터뱅크(fixed mel filterbank)를 일관되게 능가하지는 못했습니다. 학습 가능한 오디오 프론트엔드에 대한 탐구는 아직 해결되지 않았습니다.

EfficientLEAF: 더 빠른 학습 가능한 오디오 프론트엔드의 의심스러운 활용 | 최신 연구 논문 | HyperAI초신경