摘要
在构建阿拉伯语文本转语音(text-to-speech)系统的过程中,我们发现系统生成的语音存在大量发音错误。这些错误的主要根源在于现代标准阿拉伯语书写中缺乏元音符号(diacritics)。元音符号是标注在字母上方或下方的小标记,用于提供发音和语法信息。针对这一问题,我们基于深度学习的文本转语音系统研究,提出了三种深度学习模型以恢复阿拉伯语文本中的元音符号。第一种模型为基线模型,用于评估简单深度学习模型在该语料上的表现。第二种模型采用编码器-解码器(encoder-decoder)架构,其结构与我们的文本转语音系统相似,但经过多项调整以适应元音符号恢复任务。第三种模型则仅利用文本转语音模型的编码器部分,该模型在词错误率(word error rate)和元音符号错误率(diacritic error rate)两项指标上均达到了当前最优水平。上述模型将广泛应用于多种自然语言处理任务,包括但不限于文本转语音、词性标注(part-of-speech tagging)以及机器翻译,显著提升相关系统的准确性和自然度。