HyperAIHyperAI

Command Palette

Search for a command to run...

感情的ボーカルバーストタスクにおけるwav2vec 2.0のバリエーションの評価

Akira Sasou Bagus Tris Atmaja

概要

人間の声における感情バイオマーカーの探索は、挑戦的な研究分野である。従来の研究では、発話から感情状態を予測することに焦点が当てられてきたが、本研究では感情的な声の発現(affective vocal bursts)に関する多様なタスクに着目している。自動音声認識(ASR)における自己教師学習の成功を参考に、wav2vec 2.0の変種を用いて、4つの感情的声の発現タスク(High、Two、Culture、Type)に対する音響埋め込み(acoustic embedding)を抽出した。すべてのタスクにおいて類似したアーキテクチャを採用し、音響埋め込みの評価により、従来の音響特徴量に比べてwav2vec 2.0の変種が感情的声の発現タスクにおいて高い潜在的有効性を示すことが明らかになった。本研究では、20個の異なるシード(seed)を用いた評価において、従来の音響特徴量と音響埋め込みの両方を比較し、検証セットにおける最高スコアおよび平均スコア(標準偏差を併記)を報告した。全タスクにおいて、検証セットで得られた3つの高スコアを活用してテストセットに対する予測を生成した。これらのテストスコアを過去の研究と比較した結果、顕著な性能向上が達成された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています