2 个月前

Wav2Small:将Wav2Vec2精简至72K参数以实现低资源语音情感识别

Dionyssos Kounadis-Bastian; Oliver Schrüfer; Anna Derington; Hagen Wierstorf; Florian Eyben; Felix Burkhardt; Björn Schuller
Wav2Small:将Wav2Vec2精简至72K参数以实现低资源语音情感识别
摘要

语音情感识别(SER)需要大量的计算资源来克服注释者意见不一致的挑战。目前,SER正逐渐转向对唤醒度、支配度和效价(A/D/V)的维度注释。由于注释者意见的一致性较差,传统的L2距离等通用指标在评估A/D/V准确性方面显得不够合适。然而,一致性相关系数(Concordance Correlation Coefficient, CCC)作为一种替代指标,在评估模型输出与整个数据集的一致性时表现出色,而不仅仅是单个音频的L2距离。近期的研究表明,wav2vec2和wavLM架构通过为每个A/D/V维度输出一个浮点值,达到了当前最佳的A/D/V CCC水平。Wav2Vec2.0和WavLM系列模型具有较高的计算开销,但使用人类注释训练小型模型尚未取得成功。本文中,我们利用一个大型Transformer架构的最佳A/D/V模型作为教师/注释器,训练了5个学生模型:4个MobileNets和我们提出的Wav2Small模型。这些学生模型仅使用教师模型的A/D/V输出进行训练,而不依赖于人类注释。我们所提出的教师模型在MSP Podcast数据集上也取得了新的最佳成绩,效价CCC达到0.676。我们选择MobileNetV4和MobileNet-V3作为学生模型的原因在于,MobileNet设计用于实现快速执行时间。此外,我们还提出了一种名为Wav2Small的新架构,该架构旨在最小化参数数量和内存消耗。Wav2Small的.onnx(量化后)文件大小仅为120KB,参数量为72K,远低于MobileNet-V4-Small的3.12M参数量。这使得Wav2Small成为低资源硬件上实现A/D/V的一种潜在解决方案。

Wav2Small:将Wav2Vec2精简至72K参数以实现低资源语音情感识别 | 最新论文 | HyperAI超神经