
초록
저희는 자원이 제한된 환경에서 새로운 음성 활성 탐지(Voice Activity Detection, VAD) 모델을 제안합니다. 본 연구의 핵심 아이디어는 VAD를 노이즈 제거(denoising) 문제로 모델링하고, 음성 분류 작업에서 방해 요소가 되는 특징을 식별하도록 설계된 네트워크를 구축하는 것입니다. 모델은 음성 이벤트의 유형을 예측하는 동시에 관련 없는 특징을 동시에 식별하도록 훈련됩니다. 제안하는 모델은 총 7.8K개의 파라미터만을 가지며, AVA-Speech 평가 세트에서는 기존에 제안된 방법들을 능가하는 성능을 보이고, HAVIC 데이터셋에서도 경쟁력 있는 결과를 제공합니다. 본 연구에서는 모델의 아키텍처, 실험 결과 및 구성 요소에 대한 아블레이션 스터디를 제시합니다. 코드와 모델은 아래 링크에서 공개됩니다: https://www.github.com/jsvir/vad.