PANNs: 음성 패턴 인식을 위한 대규모 사전 학습된 음성 신경망

음성 패턴 인식은 머신러닝 분야에서 중요한 연구 주제로, 음성 태깅, 음향 환경 분류, 음악 분류, 음성 감정 분류, 사운드 이벤트 탐지 등의 다양한 작업을 포함한다. 최근에는 신경망이 음성 패턴 인식 문제 해결에 활용되고 있다. 그러나 기존의 시스템들은 제한된 지속시간을 가진 특정 데이터셋에 기반하여 구축되어 왔다. 최근 컴퓨터 비전 및 자연어 처리 분야에서는 대규모 데이터셋에서 사전 학습된 시스템이 다양한 작업에 잘 일반화되고 있음이 확인되었다. 그러나 음성 패턴 인식 분야에서는 대규모 데이터셋에서의 사전 학습 시스템에 관한 연구는 여전히 제한적이다. 본 논문에서는 대규모 AudioSet 데이터셋을 기반으로 사전 학습된 음성 신경망(PANNs)을 제안한다. 이러한 PANNs는 다른 음성 관련 작업으로 전이학습되어 활용된다. 다양한 합성곱 신경망(CNN) 구조로 구성된 PANNs의 성능 및 계산 복잡도를 조사한다. 또한 로그멜 스펙트로그램과 원시 파형(waveform)을 모두 입력 특징으로 사용하는 새로운 아키텍처인 Wavegram-Logmel-CNN을 제안한다. 본 연구에서 개발한 최적의 PANN 시스템은 AudioSet 태깅에서 기존 최고 성능인 0.392를 초월하는 최신 기준(mean average precision, mAP) 0.439를 달성하였다. 또한 PANNs를 여섯 가지 음성 패턴 인식 작업에 전이 적용하여, 그 중 다수에서 최신 기준 성능을 입증하였다. 본 연구의 소스 코드 및 사전 학습 모델은 공개되었으며, 아래 링크에서 확인할 수 있다: https://github.com/qiuqiangkong/audioset_tagging_cnn.