Wav2Small: Wav2Vec2を72Kパラメータに蒸留して低リソース音声感情認識を実現する

音声感情認識(Speech Emotion Recognition, SER)は、大量のアノテーター間での意見の不一致という課題を克服するために、高い計算リソースが必要です。現在、SERは興奮度、主導性、価値感(Arousal/Dominance/Valence, A/D/V)の次元的なアノテーションに移行しています。L2距離などの一般的な評価指標は、アノテーターの意見が一致しないため、A/D/Vの精度評価には適していないことが示されています。しかし、相関一致係数(Concordance Correlation Coefficient, CCC)は、モデルの出力が個々のオーディオのL2距離ではなく、全体データセットのCCCと一致することを評価する代替指標として注目を集めています。最近の研究では、各A/D/V次元に対して浮動小数点値を出力するwav2vec2 / wavLMアーキテクチャが今日の最先端(State-of-the-art, Sota)CCCを達成していることが示されています。Wav2Vec2.0 / WavLMファミリーは高い計算負荷を持っていますが、人間によるアノテーションを使用して小さなモデルを訓練することは成功していません。本論文では、大規模なTransformer Sota A/D/Vモデルを教師/アノテーターとして使用し、5つの学生モデル(4つのMobileNetsと提案するWav2Small)を訓練します。この訓練には人間によるアノテーションではなく、教師モデルからのA/D/V出力をのみ使用します。提案する教師モデルはMSP Podcastデータセットにおいて新しいSotaとなる価値感CCC=0.676を達成しました。学生モデルとしてMobileNetV4 / MobileNet-V3を選択した理由は、MobileNetが高速な実行時間を目的に設計されているからです。また、最小限のパラメータ数とRAM消費量を目指したWav2Smallアーキテクチャも提案します。Wav2Smallは.onnx形式(量子化済み)でわずか120KBであり、72Kパラメータしか持たない一方でMobileNet-V4-Smallは3.12Mパラメータを持つため、低リソース環境でのハードウェア上でA/D/Vを行う潜在的な解決策となります。