16 天前

基于时频相关性与位置信息学习的知识迁移语音情感识别准确率提升方法

Jeong-Yoon Kim, Seung-Ho Lee
基于时频相关性与位置信息学习的知识迁移语音情感识别准确率提升方法
摘要

本文提出了一种通过视觉Transformer(Vision Transformer, ViT)建模语谱图中频率(y轴)与时间(x轴)之间相关性的方法,以提升语音情感识别(Speech Emotion Recognition, SER)的准确性。该方法通过知识蒸馏技术在ViT之间传递位置信息,具有以下创新性:i) 采用对对数梅尔语谱图进行垂直分块(vertically segmented patches)的方式,分析频率随时间变化的相关性。这种分块策略能够有效关联特定情感所对应的最具代表性频率成分与其发声时间。ii) 提出使用图像坐标编码(image coordinate encoding)——一种适用于ViT的绝对位置编码方法。通过将图像的x、y坐标归一化至[-1, 1]区间,并将其拼接至输入特征中,可为ViT提供有效的绝对位置信息。iii) 通过特征图匹配(feature map matching)机制,将教师网络中的局部性与空间位置信息高效传递至学生网络。其中,教师网络为包含卷积主干(convolutional stem)和基于图像坐标编码的绝对位置信息的ViT结构;而学生网络则为原始ViT结构,其基础架构中缺乏位置编码。在特征图匹配阶段,采用平均绝对误差(L1损失)对两网络的特征图进行最小化差异训练,从而实现知识迁移。为验证所提方法的有效性,本文将三个语音情感数据集(SAVEE、EmoDB 和 CREMA-D)转换为对数梅尔语谱图,并开展对比实验。实验结果表明,该方法在加权准确率(weighted accuracy)方面显著优于当前最先进的技术,同时所需浮点运算量(FLOPs)大幅减少。总体而言,所提出的方法为语音情感识别提供了一种兼具高效性与高性能的可行解决方案。

基于时频相关性与位置信息学习的知识迁移语音情感识别准确率提升方法 | 最新论文 | HyperAI超神经