2 个月前

g2pW:一种用于普通话多音字消歧的条件加权Softmax BERT

Yi-Chang Chen; Yu-Chuan Chang; Yen-Cheng Chang; Yi-Ren Yeh
g2pW:一种用于普通话多音字消歧的条件加权Softmax BERT
摘要

多音字消歧是汉语字符到音素(grapheme-to-phoneme, g2p)转换中最关键的任务。以往的研究通过使用预训练语言模型、限制输出以及从词性标注(Part-Of-Speech, POS)中获取额外信息来解决这一问题。受这些策略的启发,我们提出了一种新的方法,称为 g2pW,该方法通过适应性学习的 Softmax 权重来调节 BERT 的输出,以考虑感兴趣的多音字及其词性标注。与以往研究中使用的硬掩码不同,我们的实验表明,为候选音素学习一个软权重函数可以提高性能。此外,我们提出的 g2pW 在使用词性标签作为辅助特征时,并不需要额外的预训练词性标注模型,因为我们同时在统一编码器中训练了词性标注模型。实验结果表明,我们的 g2pW 在公开的 CPP 数据集上优于现有的方法。所有代码、模型权重和用户友好的软件包均已公开发布。

g2pW:一种用于普通话多音字消歧的条件加权Softmax BERT | 最新论文 | HyperAI超神经