17일 전

목표 특징에 대한 지각적 대비 강화를 통한 음성 강화

Rong Chao, Cheng Yu, Szu-Wei Fu, Xugang Lu, Yu Tsao
목표 특징에 대한 지각적 대비 강화를 통한 음성 강화
초록

음성 강화(SE) 성능은 딥러닝 모델을 기반 기능으로 활용함으로써 상당히 향상되었다. 본 연구에서는 SE 성능을 추가로 향상시키기 위해 인지적 대비 확장(Perceptual Contrast Stretching, PCS) 기법을 제안한다. PCS는 임계 대역 중요도 함수( critical band importance function)를 기반으로 도출되며, SE 모델의 타겟을 수정하는 데 적용된다. 구체적으로, 타겟 특징의 대비를 인지적 중요도에 따라 확장함으로써 전반적인 SE 성능을 향상시킨다. 기존의 후처리 기반 구현 방식과 비교하여, PCS를 학습 단계에 통합함으로써 성능을 유지하면서 동시에 온라인 계산 부담을 줄일 수 있다. 특히 PCS는 다양한 SE 모델 아키텍처와 학습 기준과도 유연하게 결합 가능하며, SE 모델 학습의 인과성(causality) 및 수렴성(convergence)에 영향을 주지 않는다. VoiceBank-DEMAND 데이터셋에서의 실험 결과에 따르면, 제안된 방법은 인과적(SE, PESQ 점수 = 3.07) 및 비인과적(SE, PESQ 점수 = 3.35) 모두에서 최신 기술 수준의 성능을 달성할 수 있음을 입증하였다.