12일 전

ADA-VAD: 노이즈 저항성 음성 활성 탐지를 위한 비일치 적대적 도메인 적응

{Jong Hwan Ko, Jiho Chang, Taesoo Kim}
ADA-VAD: 노이즈 저항성 음성 활성 탐지를 위한 비일치 적대적 도메인 적응
초록

음성 활동 탐지(Voice Activity Detection, VAD)는 다양한 음성 처리 시스템에서 필수적인 전처리 구성 요소로 부상하고 있다. 이러한 시스템은 일반적으로 다양한 노이즈 유형과 낮은 신호 대 잡음비(SNR)를 가진 환경에서 운영되기 때문에, 효과적인 VAD 기법은 노이즈가 섞인 배경 신호 속에서 음성 영역을 안정적으로 탐지할 수 있어야 한다. 본 논문에서는 다양한 노이즈 유형과 낮은 SNR을 가진 오디오 샘플에 대해 매우 강건한 성능을 보이는 딥 뉴럴 네트워크(DNN) 기반의 VAD 기법인 적대적 도메인 적응 VAD(Adversarial Domain Adaptive VAD, ADA-VAD)를 제안한다. 제안한 방법은 DNN 모델을 지도 학습 방식으로 VAD 작업을 위해 훈련한다. 동시에 배경 노이즈로 인한 성능 저하를 완화하기 위해, 비지도 학습 방식으로 노이즈가 있는 오디오 스트림과 정제된 오디오 스트림 간의 도메인 불일치를 적대적 도메인 적응 기법을 통해 일치시킨다. 실험 결과, AVA-speech 데이터셋 및 미리 알지 못한 노이즈 데이터베이스를 활용해 합성한 음성 데이터베이스에서 각각 수동으로 추출한 특징을 사용해 훈련한 모델보다 ADA-VAD가 평균적으로 AUC 기준 3.6%p와 7%p 높은 성능을 달성하였다.

ADA-VAD: 노이즈 저항성 음성 활성 탐지를 위한 비일치 적대적 도메인 적응 | 최신 연구 논문 | HyperAI초신경