摘要

俄罗斯语音合成面临着独特的挑战，包括元音弱化、辅音清化、可变重音模式、同形异义词歧义以及不自然的语调。本文介绍了Balalaika数据集，这是一个包含超过2,000小时高质量录音室俄语语音的新颖数据集，附有全面的文字注释，包括标点符号和重音标记。实验结果表明，基于Balalaika数据集训练的模型在语音合成和增强任务中显著优于基于现有数据集训练的模型。我们详细描述了数据集构建流程、注释方法以及比较评估的结果。

源 PDF 查看代码