2 个月前

基于层次结构的多方面注意力发音评估

Heejin Do; Yunsu Kim; Gary Geunbae Lee
基于层次结构的多方面注意力发音评估
摘要

自动发音评估是计算机辅助发音训练系统的重要组成部分。为了提供深入的反馈,需要在音素、单词和句子等多个粒度层面上,从准确性、流利性和完整性等多个方面对发音进行评分。然而,现有的多方面多粒度方法同时预测所有层面的所有方面,因此难以捕捉音素、单词和句子之间的语言层次关系。这一局限性进一步导致了在同一语言单元内不同方面之间密切关系的忽视。本文提出了一种基于多层次发音评估与多方面注意力(HiPAMA)的模型,该模型通过分层次表示粒度级别来直接捕捉其语言结构,并引入了多方面注意力机制,以反映同一层面内各方面的关联,从而生成更具内涵的表示。通过从粒度层面和方面层面获取关系信息,HiPAMA能够充分利用多任务学习的优势。在speachocean762数据集上的实验结果显著改善,证明了HiPAMA的鲁棒性,尤其是在那些难以评估的方面。

基于层次结构的多方面注意力发音评估 | 最新论文 | HyperAI超神经