음성 향상 및 역리버베레이션을 위한 확산 기반 생성 모델

본 연구에서는 이전 발표를 바탕으로 확산 기반 생성 모델을 음성 향상에 활용하였습니다. 확률 미분 방정식에 기반한 확산 과정의 상세 개요를 제시하고, 그 함의에 대한 광범위한 이론적 검토를 수행하였습니다. 일반적인 조건부 생성 작업과 달리, 우리는 순수 가우스 노이즈가 아닌 노이즈가 포함된 음성과 가우스 노이즈의 혼합에서 역 과정을 시작합니다. 이는 클린 음성을 노이즈가 포함된 음성으로 변환하는 전진 과정에서 드리프트 항을 포함시키는 것과 일치합니다. 우리는 이 절차가 고품질의 클린 음성 추정치를 생성하기 위해 단 30단계의 확산 과정만 사용할 수 있음을 보여주었습니다. 네트워크 구조를 조정함으로써, 우리는 음성 향상 성능을 크게 향상시킬 수 있었으며, 이는 원래 접근 방식의 주요 제약 요인이 형식주의보다 네트워크였음을 시사합니다. 광범위한 크로스 데이터셋 평가에서, 개선된 방법이 최근의 판별 모델들과 경쟁할 수 있으며, 훈련에 사용되지 않은 다른 코퍼스에서 평가할 때 더 나은 일반화 성능을 달성함을 보여주었습니다. 실제 세계의 노이즈가 포함된 녹음 자료를 사용한 도구적 평가와 청취 실험을 통해 제안된 방법이 최고로 평가되었음을 보완적으로 제시하였습니다. 역 과정 해결을 위한 다양한 샘플러 구성 검토를 통해 제안된 방법의 성능과 계산 속도 사이의 균형을 맞출 수 있었습니다. 또한, 제안된 방법이 추가적인 배경 노이즈 제거뿐만 아니라 데레버베레이션에도 적합함을 보여주었으며, 따라서 적용 범위가 한정적이지 않다는 것을 입증하였습니다. 코드 및 오디오 예제는 온라인에서 확인 가능하며, 다음 링크를 참조하시기 바랍니다: https://github.com/sp-uhh/sgmse