
摘要
语言识别(LI)是多个语音处理系统中的重要第一步。随着基于语音的助手数量不断增加,语音语言识别已成为一个广泛研究的领域。为了应对语言识别问题,我们可以采取隐式方法,即仅存在某种语言的语音数据,或者显式方法,即同时提供该语言的文本及其对应的转录。本文侧重于隐式方法,因为缺乏转录数据。本文对现有的模型进行了基准测试,并提出了一种新的基于注意力机制的语言识别模型,该模型以对数梅尔频谱图图像作为输入。我们还展示了原始波形作为神经网络模型特征在语言识别任务中的有效性。为了训练和评估模型,我们使用VoxForge数据集对六种语言(英语、法语、德语、西班牙语、俄语和意大利语)进行了分类,准确率达到95.4%,并对四种语言(英语、法语、德语和西班牙语)进行了分类,准确率达到96.3%。该方法可以进一步扩展以包含更多语言。