8 个月前

多任务学习

音频和语音处理

自然语言处理

自然语言处理

Fu-An Chao¹, Tien-Hong Lo¹,², Tzu-I Wu¹,², Yao-Ting Sung³, Berlin Chen²

摘要

自动发音评估（APA）在计算机辅助发音训练（CAPT）中起着至关重要的作用，特别是在评估第二语言（L2）学习者的口语能力时。然而，大多数现有方法的一个明显缺点是，它们在不同的语音粒度上并行化建模过程，而没有考虑到这些粒度之间的层次关系和局部上下文关系。为此，本文提出了一种新的层次化方法，用于多方面和多粒度的APA。具体而言，我们首先引入了超音素（sup-phonemes）的概念，以探索L2说话者更为细微的语义特征。其次，利用深度可分离卷积层更好地封装子词级别的局部上下文线索。最后，我们采用分数约束注意力池化机制来预测句子级别的得分，并通过多任务学习（MTL）框架优化各个组件模型。在公开可用的基准数据集SpeechOcean762上进行的大量实验表明，我们的方法相对于一些前沿基线方法具有有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

音频和语音处理

自然语言处理

自然语言处理

Fu-An Chao¹, Tien-Hong Lo¹,², Tzu-I Wu¹,², Yao-Ting Sung³, Berlin Chen²

摘要

自动发音评估（APA）在计算机辅助发音训练（CAPT）中起着至关重要的作用，特别是在评估第二语言（L2）学习者的口语能力时。然而，大多数现有方法的一个明显缺点是，它们在不同的语音粒度上并行化建模过程，而没有考虑到这些粒度之间的层次关系和局部上下文关系。为此，本文提出了一种新的层次化方法，用于多方面和多粒度的APA。具体而言，我们首先引入了超音素（sup-phonemes）的概念，以探索L2说话者更为细微的语义特征。其次，利用深度可分离卷积层更好地封装子词级别的局部上下文线索。最后，我们采用分数约束注意力池化机制来预测句子级别的得分，并通过多任务学习（MTL）框架优化各个组件模型。在公开可用的基准数据集SpeechOcean762上进行的大量实验表明，我们的方法相对于一些前沿基线方法具有有效性。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供