摘要
由于殖民历史的影响,口语化的孟加拉语中已大量吸收英语词汇。在日常对话中,孟加拉语与英语混用的现象十分普遍,这一现象被称为“语码转换”(Code-switching, CS)。在当前语码转换现象日益增多的背景下,构建语音命令分类系统时,往往需要将单一基础命令映射到其多种语言混合形式的变体上。以往针对孟加拉语语音的研究主要集中在单个词汇的分类任务上,普遍难以理解句子中复杂的语义关系。本文提出一种基于CNN-LSTM架构的“CSVC-Net”模型,用于识别在孟加拉语与英语之间发生语码转换的口语命令。为更真实地反映实际使用场景,本文还构建了一个新标注的数据集——“Banglish”,包含3,840个音频文件,涵盖11个命令类别,共计64种语言混合变体。所提出的处理流程对输入音频信号依次进行一系列适当的变换与增强操作,使模型在该数据集上达到了92.08%的分类准确率。此外,通过与多种其他模型架构进行对比,并在不同噪声水平下进行测试,验证了该模型的鲁棒性,均表现出优异的性能,充分证明了其在真实应用场景中的可行性与实用性。