摘要
自动发音评估模型在语言学习应用中被广泛使用。传统的发音评估方法通常采用基于特征的方法,例如发音质量评分(Goodness-of-Pronunciation, GOP)方法,或利用深度学习语音识别模型进行发音评估。随着Transformer架构的兴起,预训练自监督学习(Self-Supervised Learning, SSL)模型被用于提取上下文相关的语音表征,在多种下游任务中表现出显著性能提升。在本研究中,我们提出了一种端到端回归模型(End-to-End Regressor, E2E-R),用于实现发音评分。E2E-R采用两阶段训练策略:第一阶段,对预训练的SSL模型在音素识别任务上进行微调,以获得更优的发音音素表征;第二阶段,通过迁移学习构建发音评分模型,该模型采用孪生神经网络(Siamese Neural Network)将待评估发音的音素表征与标准音素的嵌入向量进行对比,从而输出最终的发音评分。实验结果表明,E2E-R在测试集上取得了0.68的皮尔逊相关系数(Pearson Correlation Coefficient, PCC),性能接近当前最先进的GOPT-PAII模型,同时无需依赖额外的母语语音数据训练、特征工程或外部强制对齐模块。据我们所知,本工作首次实现了基于预训练自监督学习模型,在原始语音波形上进行端到端音素级发音评分的完整流程,为自动发音评估提供了新的技术路径。