
摘要
自动发音评估(APA)在计算机辅助发音训练(CAPT)中起着至关重要的作用,特别是在评估第二语言(L2)学习者的口语能力时。然而,大多数现有方法的一个明显缺点是,它们在不同的语音粒度上并行化建模过程,而没有考虑到这些粒度之间的层次关系和局部上下文关系。为此,本文提出了一种新的层次化方法,用于多方面和多粒度的APA。具体而言,我们首先引入了超音素(sup-phonemes)的概念,以探索L2说话者更为细微的语义特征。其次,利用深度可分离卷积层更好地封装子词级别的局部上下文线索。最后,我们采用分数约束注意力池化机制来预测句子级别的得分,并通过多任务学习(MTL)框架优化各个组件模型。在公开可用的基准数据集SpeechOcean762上进行的大量实验表明,我们的方法相对于一些前沿基线方法具有有效性。