
摘要
语音情感识别对于获取情感智能至关重要,它直接影响对语音语境与语义的理解。和谐结构的元音与辅音发音在口语信息中提供了语音特征(indexical)和语言学线索。以往研究曾就元音发音线索在心理与语言学层面上是否更有利于传递情感语境展开讨论。另有研究指出,情感信息可能存在于微小且重叠的声学线索中。然而,这些观点尚未在计算型语音情感识别系统中得到充分验证。本研究采用基于卷积神经网络(CNN)与长短期记忆网络(LSTM)的模型,并均引入注意力机制,以在计算模型中检验上述理论。研究结果揭示了声学上下文与词汇重要性在语音情感识别任务中的关键作用。在IEMOCAP语料库上的实验表明,所提出的模型在纯声学数据上取得了80.1%的未加权准确率,优于当前该任务的最先进模型。通过将音素(phones)与词汇(words)映射至注意力向量,研究发现:相较于辅音,元音在定义情感声学线索方面具有更重要的作用;同时,模型能够根据声学上下文动态分配词汇的重要性,进一步验证了声学语境在情感识别中的决定性影响。