HyperAI超神经
12 days ago

一种以数据为中心的框架,用于解决俄语语音生成模型中的音位和韵律挑战

Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
一种以数据为中心的框架,用于解决俄语语音生成模型中的音位和韵律挑战
摘要

俄罗斯语音合成面临着独特的挑战,包括元音弱化、辅音清化、可变重音模式、同形异义词歧义以及不自然的语调。本文介绍了Balalaika数据集,这是一个包含超过2,000小时高质量录音室俄语语音的新颖数据集,附有全面的文字注释,包括标点符号和重音标记。实验结果表明,基于Balalaika数据集训练的模型在语音合成和增强任务中显著优于基于现有数据集训练的模型。我们详细描述了数据集构建流程、注释方法以及比较评估的结果。