17일 전

단지 가장 가까운 이웃을 이용한 음성 변환

Matthew Baas, Benjamin van Niekerk, Herman Kamper
단지 가장 가까운 이웃을 이용한 음성 변환
초록

어떤 말하기 방식에서든 어떤 말하기 방식으로의 음성 변환(Any-to-any voice conversion)은 타겟 화자에 대한 몇 가지 예시만으로도 소스 음성을 타겟 화자의 음성으로 변환하는 것을 목표로 한다. 최근의 방법들은 설득력 있는 변환 결과를 도출하고 있지만, 그 대가로 복잡성이 증가하여 결과의 재현성과 기반 구축이 어려워지고 있다. 본 연구에서는 단순함을 유지한다. 우리는 ‘k-최근접 이웃 음성 변환(k-nearest neighbors voice conversion, kNN-VC)’을 제안한다. 이는 간단하면서도 효과적인 어떤 말하기 방식에서든 어떤 말하기 방식으로의 변환을 가능하게 하는 방법이다. 먼저, 소스 음성과 참조 음성의 자기지도 학습(자기학습) 기반 표현을 추출한다. 타겟 화자로 변환하기 위해, 소스 표현의 각 프레임을 참조 표현 내에서 가장 유사한 이웃 프레임으로 교체한다. 마지막으로, 미리 훈련된 보코더(vocoder)가 변환된 표현으로부터 음성을 합성한다. 객관적 및 주관적 평가 결과, kNN-VC는 기존 방법과 유사한 이해도 점수를 유지하면서도 화자 유사도를 향상시킴을 확인하였다. 코드, 사례, 훈련된 모델: https://bshall.github.io/knn-vc