17일 전

조건부 확산 확률 모델을 이용한 음성 강화

Yen-Ju Lu, Zhong-Qiu Wang, Shinji Watanabe, Alexander Richard, Cheng Yu, Yu Tsao
조건부 확산 확률 모델을 이용한 음성 강화
초록

음성 강화는 사용자 중심의 오디오 응용 분야에서 핵심적인 구성 요소이지만, 현재의 시스템은 여전히 왜곡되거나 자연스럽지 않은 출력을 보이고 있다. 생성 모델은 음성 합성 분야에서 강력한 잠재력을 보여주고 있으나, 음성 강화 분야에서는 여전히 뒤처져 있다. 본 연구는 최근의 확산 확률 모델( diffusion probabilistic models)의 발전을 활용하여, 관측된 노이즈가 있는 음성 신호의 특성을 확산 및 역확산 과정에 통합하는 새로운 음성 강화 알고리즘을 제안한다. 구체적으로, 역확산 과정에서 추정된 음성 신호 내에 존재하는 비정규 분포의 실제 노이즈에 적응할 수 있는 일반화된 확산 확률 모델의 형태인 조건부 확산 확률 모델(conditional diffusion probabilistic model)을 제안한다. 실험을 통해 제안된 방법이 대표적인 생성 모델들에 비해 뛰어난 성능을 보임을 입증하였으며, 학습 과정에서 접하지 못한 노이즈 특성을 가진 다른 데이터셋에 대한 모델의 일반화 능력 또한 탐구하였다.