17일 전
장치 강인성 확보를 위한 두 단계 접근법을 통한 음향 장면 분류
Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee

초록
장치의 내구성 향상은 경쟁력 있는 데이터 기반 음향 장면 분류(ASC) 시스템에서 매우 바람직한 핵심 특성이다. 이를 위해 전적으로 컨볼루션 신경망(CNN) 기반의 새로운 이단계 시스템이 제안된다. 본 이단계 시스템은 두 개의 CNN 분류기 기반의 특수 설계된 점수 조합 전략을 활용한다: (i) 첫 번째 CNN은 음향 입력을 세 가지 광범위한 클래스 중 하나로 분류하고, (ii) 두 번째 CNN은 동일한 입력을 더 세분화된 열 개의 클래스 중 하나로 분류한다. 두 단계 분류기 구현을 위해 세 가지 다른 CNN 아키텍처를 탐색하였으며, 주파수 하샘플링 전략도 검토하였다. 또한 ASC를 위한 새로운 데이터 증강 기법도 연구되었다. DCASE 2020 Task 1a에서 평가한 결과, 제안된 ASC 시스템은 개발 세트에서 최신 기술 수준의 정확도를 달성하였다. 특히, CNN 앙상블의 이단계 융합을 활용한 최적의 시스템은 다수 장치 테스트 데이터에서 평균 81.9%의 정확도를 기록하였으며, 미리 경험하지 못한 장치에 대해서도 유의미한 성능 향상을 보였다. 마지막으로, 클래스 활성화 맵(CAM)을 활용한 신경망 산출성 분석을 통해 모델이 학습한 패턴에 대한 새로운 통찰을 제공하였다.