16日前

感情的ボーカルバーストタスクにおけるwav2vec 2.0のバリエーションの評価

{Akira Sasou, Bagus Tris Atmaja}
要約

人間の声における感情バイオマーカーの探索は、挑戦的な研究分野である。従来の研究では、発話から感情状態を予測することに焦点が当てられてきたが、本研究では感情的な声の発現(affective vocal bursts)に関する多様なタスクに着目している。自動音声認識(ASR)における自己教師学習の成功を参考に、wav2vec 2.0の変種を用いて、4つの感情的声の発現タスク(High、Two、Culture、Type)に対する音響埋め込み(acoustic embedding)を抽出した。すべてのタスクにおいて類似したアーキテクチャを採用し、音響埋め込みの評価により、従来の音響特徴量に比べてwav2vec 2.0の変種が感情的声の発現タスクにおいて高い潜在的有効性を示すことが明らかになった。本研究では、20個の異なるシード(seed)を用いた評価において、従来の音響特徴量と音響埋め込みの両方を比較し、検証セットにおける最高スコアおよび平均スコア(標準偏差を併記)を報告した。全タスクにおいて、検証セットで得られた3つの高スコアを活用してテストセットに対する予測を生成した。これらのテストスコアを過去の研究と比較した結果、顕著な性能向上が達成された。