2달 전

End-to-End 오디오가 반격하다: 효율적인 오디오 분류 네트워크를 위한 증강 기법의 향상

Gazneli, Avi ; Zimerman, Gadi ; Ridnik, Tal ; Sharir, Gilad ; Noy, Asaf

초록

효율적인 아키텍처와 엔드투엔드 이미지 분류 작업을 위한 다양한 증강 기법들이 제안되고 깊이 연구되어 왔지만, 오디오 분류를 위한 최신 기술들은 여전히 오디오 신호의 여러 표현과 함께 큰 아키텍처를 사용하며, 대규모 데이터셋에서 미세 조정(fine-tuned)된 모델에 의존하고 있습니다. 오디오의 본래 가벼운 특성과 새로운 오디오 증강 기법을 활용함으로써, 우리는 강력한 일반화 능력을 갖춘 효율적인 엔드투엔드 네트워크를 제시할 수 있었습니다. 다양한 사운드 분류 세트에 대한 실험 결과는 우리의 접근 방식이 효과적이고 견고함을 입증하며, 다양한 환경에서 최신 결과를 달성하였습니다. 공개 코드는 다음 주소에서 확인 가능합니다: \href{https://github.com/Alibaba-MIIL/AudioClassfication}{이 링크}