2달 전
EfficientLEAF: 더 빠른 학습 가능한 오디오 프론트엔드의 의심스러운 활용
Schlüter, Jan ; Gutenbrunner, Gerald

초록
오디오 분류에서 적은 매개변수를 가진 미분 가능한 청각 필터뱅크는 하드 코딩된 스펙트로그램과 원시 오디오 사이의 중간 지점을 다룹니다. Gabor 기반 필터뱅크와 채널별 에너지 정규화(PCEN)를 결합한 LEAF(arXiv:2101.08596)는 유망한 결과를 보여주었지만, 계산적으로 비용이 많이 듭니다. 비균일한 컨볼루션 커널 크기와 스트라이드를 사용하고, PCEN을 더 나은 병렬화가 가능한 연산으로 대체함으로써, 우리는 비용을 줄이면서 유사한 결과를 얻을 수 있습니다. 6개의 오디오 분류 작업에 대한 실험에서, 우리의 프론트엔드는 LEAF의 정확도와 일치하면서 그 비용의 3%만을 필요로 하지만, 둘 다 고정된 멜 필터뱅크(fixed mel filterbank)를 일관되게 능가하지는 못했습니다. 학습 가능한 오디오 프론트엔드에 대한 탐구는 아직 해결되지 않았습니다.