2달 전

End-to-End 환경 사운드 분류를 위한 1D 컨볼루셔널 신경망

Abdoli, Sajjad ; Cardinal, Patrick ; Koerich, Alessandro Lameiras
End-to-End 환경 사운드 분류를 위한 1D 컨볼루셔널 신경망
초록

본 논문에서는 오디오 신호에서 직접 표현을 학습하는 1차원 컨볼루션 신경망(CNN) 기반의 환경 소음 분류에 대한 엔드투엔드 접근 방식을 제시합니다. 여러 개의 컨볼루션 계층이 사용되어 신호의 미세한 시간 구조를 포착하고 분류 작업과 관련된 다양한 필터를 학습합니다. 제안된 접근 방식은 슬라이딩 윈도우를 사용하여 신호를 중복 프레임으로 나누기 때문에 임의의 길이의 오디오 신호를 처리할 수 있습니다. 다양한 입력 크기를 고려한 여러 아키텍처가 평가되었으며, 이 중 첫 번째 컨볼루션 계층을 감마톤 필터 뱅크(Gammatone filterbank)로 초기화하여 인간의 코크레아에서의 청각 필터 반응을 모델링하는 방법이 포함되었습니다.제안된 엔드투엔드 접근 방식의 환경 소음 분류 성능은 UrbanSound8k 데이터셋을 통해 평가되었으며, 실험 결과 평균 정확도 89%를 달성하였습니다. 따라서, 제안된 접근 방식은 수작업 특징이나 2차원 표현을 입력으로 사용하는 대부분의 최신 접근 방식보다 우수한 성능을 보였습니다. 또한, 제안된 접근 방식은 문헌에서 발견되는 다른 아키텍처와 비교해 파라미터 수가 적어 훈련에 필요한 데이터 양을 줄일 수 있다는 장점이 있습니다.

End-to-End 환경 사운드 분류를 위한 1D 컨볼루셔널 신경망 | 최신 연구 논문 | HyperAI초신경