
摘要
中文字符到音素的转换(Grapheme-to-Phoneme, G2P)是普通话文本转语音(Text-To-Speech, TTS)系统中的一个重要组成部分。中文G2P转换面临的最大挑战之一是如何消除多音字的发音歧义——即具有多个发音的汉字。尽管许多学术研究已经致力于解决这一问题,但至今仍缺乏一个公开的数据集作为标准基准,以便进行公平的比较。此外,大多数已报告的系统对于希望方便地将中文文本转换为拼音的研究人员或实践者来说难以使用。鉴于此,本研究引入了一个新的基准数据集,包含超过99,000个句子,用于中文多音字消歧。我们在该数据集上训练了一个简单的神经网络模型,并发现其性能优于其他现有的G2P系统。最后,我们将项目打包并发布在PyPi上。