11日前

微調整されたWav2vec 2.0/HuBERTを用いた音声感情認識、話者確認、話された言語理解のベンチマーク

Yingzhi Wang, Abdelmoumene Boumadane, Abdelwahab Heba
微調整されたWav2vec 2.0/HuBERTを用いた音声感情認識、話者確認、話された言語理解のベンチマーク
要約

音声自己教師ありモデルであるwav2vec 2.0やHuBERTは、自動音声認識(ASR)分野において画期的な進展を遂げている。しかし、それらがASR以外のタスクにおいても必ずしも優れた性能を発揮することを完全に証明しているわけではない。本研究では、wav2vec 2.0およびHuBERTの事前学習モデルに対して、部分的ファインチューニングと完全なファインチューニングを適用し、3つの非ASR音声タスク——音声感情認識、話者認証、 spoken language understanding(話者言語理解)——における性能を検証した。提案するシンプルな下流タスクフレームワークを用いて、IEMOCAPデータセットにおける音声感情認識では、話者依存設定で79.58%の加重精度、話者独立設定で73.01%の加重精度を達成した。VoxCeleb1データセットにおける話者認証では2.36%の等誤差率(EER)を達成し、SLURPデータセットでは意図分類で89.38%の精度、スロットフィリングで78.92%のF1スコアを記録した。これらの結果は、ファインチューニングされたwav2vec 2.0およびHuBERTが、抑揚、声紋、意味表現といった多様な音声特徴を効果的に学習可能であることを示しており、その強力な表現学習能力を裏付けている。

微調整されたWav2vec 2.0/HuBERTを用いた音声感情認識、話者確認、話された言語理解のベンチマーク | 最新論文 | HyperAI超神経