
초록
우리는 음성의 리듬, 음고 변화, 음색을 텍스트 없이 목표 화자로 변환하는 새로운 가벼운 방법인 DISSC를 소개한다. DISSC와 달리, 대부분의 음성 변환(Voice Conversion, VC) 기법은 음색에 주로 초점을 맞추며, 사람마다 고유한 발화 스타일(프로소디)을 무시하는 경향이 있다. 제안된 방법은 사전 학습된 자기지도 학습 모델을 활용하여 음성을 이산 단위로 인코딩함으로써, 간단하고 효과적이며 빠르게 학습이 가능한 특징을 지닌다. 모든 변환 모듈은 쌍이 없는 데이터에서도 작동할 수 있도록 재구성과 같은 작업 위에서만 훈련되며, 이로 인해 쌍이 없는 데이터에서도 임의의 화자에서 여러 화자로의 변환이 가능하다. 본 연구는 이러한 설정을 위한 정량적 및 정성적 평가 지표를 제안하고, 실험적으로 DISSC가 평가된 기존 기법들을 크게 능가함을 입증한다. 코드와 예시는 다음 링크에서 확인할 수 있다: https://pages.cs.huji.ac.il/adiyoss-lab/dissc/.