2달 전

End-to-End 오디오가 반격하다: 효율적인 오디오 분류 네트워크를 위한 증강 기법의 향상

Gazneli, Avi ; Zimerman, Gadi ; Ridnik, Tal ; Sharir, Gilad ; Noy, Asaf
End-to-End 오디오가 반격하다: 효율적인 오디오 분류 네트워크를 위한 증강 기법의 향상
초록

효율적인 아키텍처와 엔드투엔드 이미지 분류 작업을 위한 다양한 증강 기법들이 제안되고 깊이 연구되어 왔지만, 오디오 분류를 위한 최신 기술들은 여전히 오디오 신호의 여러 표현과 함께 큰 아키텍처를 사용하며, 대규모 데이터셋에서 미세 조정(fine-tuned)된 모델에 의존하고 있습니다. 오디오의 본래 가벼운 특성과 새로운 오디오 증강 기법을 활용함으로써, 우리는 강력한 일반화 능력을 갖춘 효율적인 엔드투엔드 네트워크를 제시할 수 있었습니다. 다양한 사운드 분류 세트에 대한 실험 결과는 우리의 접근 방식이 효과적이고 견고함을 입증하며, 다양한 환경에서 최신 결과를 달성하였습니다. 공개 코드는 다음 주소에서 확인 가능합니다: \href{https://github.com/Alibaba-MIIL/AudioClassfication}{이 링크}

End-to-End 오디오가 반격하다: 효율적인 오디오 분류 네트워크를 위한 증강 기법의 향상 | 최신 연구 논문 | HyperAI초신경