
要約
近年、深層学習技術の進展に伴い、音声感情認識(Speech Emotion Recognition, SER)分野では顕著な進歩が見られている。しかし、ラベル付きデータの限界ある可用性は、依然として大きな課題である。こうした課題に対処するため、自己教師学習(self-supervised learning)が近年、有望な解決策として注目されている。本論文では、音声信号から感情を認識するよう微調整可能な自己教師学習モデルとして、ベクトル量子化マスク自動符号化器(Vector Quantized Masked Autoencoder for Speech, VQ-MAE-S)を提案する。VQ-MAE-Sモデルは、ベクトル量子化変分自己符号化器(Vector-Quantized Variational Autoencoder)の離散潜在空間上で動作するマスク自動符号化器(Masked Autoencoder, MAE)に基づいている。実験結果から、VQ-MAE-SモデルがVoxCeleb2データセットで事前学習され、感情音声データ上で微調整された場合、生のスペクトログラム表現上で動作するMAEや、他の最先端手法を上回る性能を発揮することが明らかになった。