2 个月前
注意力机制是否总是必要?——基于语音的语言识别案例研究
Atanu Mandal; Santanu Pal; Indranil Dutta; Mahidas Bhattacharya; Sudip Kumar Naskar

摘要
语言识别(LID)是自动语音识别(ASR)领域中的一个关键预处理过程,涉及从音频样本中识别出所使用的语言。当前能够处理多种语言的系统通常需要用户在使用前明确指定一种或多种语言。在多语言环境中,当ASR系统无法理解所使用的语言时,LID任务显得尤为重要,因为这会导致语音识别失败。本研究介绍了一种基于卷积循环神经网络(CRNN)的语言识别方法,该方法设计用于处理音频样本的梅尔频率倒谱系数(MFCC)特征。此外,我们复现了一些最先进的方法,特别是卷积神经网络(CNN)和基于注意力机制的卷积循环神经网络(带有注意力机制的CRNN),并将其与我们的CRNN方法进行了对比分析。我们在十三种不同的印度语言上进行了全面评估,结果表明我们的模型分类准确率超过98%。对于语言学上相似的语言,LID模型表现出高水平的性能,准确率范围为97%至100%。所提出的LID模型具有很高的扩展性,可以应用于其他语言,并且在噪声环境下表现出较强的鲁棒性,在应用于欧洲语言(EU)数据集时,在有噪声的情况下仍能达到91.2%的准确率。