ERANNs: 음성 패턴 인식을 위한 효율적인 잔차 음성 신경망

음성 패턴 인식(Audio Pattern Recognition, APR)은 우리 삶과 관련된 여러 분야에 적용 가능한 중요한 연구 주제이다. 따라서 실용적인 응용에서 유용한 정확하고 효율적인 APR 시스템의 개발이 필수적이다. 본 논문에서는 APR 작업을 위한 기반 CNN 기반 시스템의 추론 속도를 향상시키기 위한 새로운 컨볼루션 신경망(Convolutional Neural Network, CNN) 아키텍처와 방법을 제안한다. 또한 제안한 방법을 통해 실험을 통해 네 개의 음성 데이터셋에서 시스템 성능 향상을 확인할 수 있었다. 더불어, 데이터 증강 기법과 전이 학습(transfer learning)이 시스템 성능에 미치는 영향을 조사하였다. 최적의 시스템은 AudioSet 데이터셋에서 평균 정밀도(mean average precision, mAP) 0.450을 달성하였다. 이 값은 최신 기술 대비 다소 낮지만, 제안된 시스템은 7.1배 빠르고 9.7배 작다. ESC-50, UrbanSound8K, RAVDESS 데이터셋에서는 각각 0.961, 0.908, 0.748의 정확도로 최신 기술 수준의 성능을 달성하였다. ESC-50 데이터셋에서는 기존 최고 성능 시스템 대비 1.7배 빠르고 2.3배 작다. RAVDESS 데이터셋에서는 기존 최고 성능 시스템 대비 3.3배 작다. 본 연구에서 제안하는 시스템을 '효율적인 잔차 음성 신경망(Efficient Residual Audio Neural Networks)'이라고 명명한다.