17 天前

基于离散自监督单元的波形域语音风格转换

Gallil Maimon, Yossi Adi
基于离散自监督单元的波形域语音风格转换
摘要

我们提出了一种名为DISSC的新方法,这是一种轻量级的文本无关语音转换技术,可将录音中的节奏、音高轮廓和音色特征转换为目标说话人的特征。与大多数语音转换(VC)方法主要关注音色而忽略个体独特语调风格(韵律)不同,DISSC能够同时建模并转换韵律、音高和音色特征。该方法采用预训练的自监督语音编码模型,将语音映射为离散单元,从而实现简单、高效且快速的训练过程。所有转换模块仅通过重建类任务进行训练,因此适用于无需配对数据的任意到多对语音转换场景。我们还引入了一套定量与定性相结合的评估指标,用于该设置下的性能评估,并通过实验证明,DISSC在各项指标上显著优于所对比的基线方法。代码与示例音频已公开,可访问 https://pages.cs.huji.ac.il/adiyoss-lab/dissc/。