Command Palette

Search for a command to run...

4ヶ月前

EmoNet-Voice: 音声感情検出のための細かい粒度で専門家が確認したベンチマーク

Christoph Schuhmann Robert Kaczmarczyk Gollam Rabby Felix Friedrich Maurice Kraus Kourosh Nadi Huu Nguyen Kristian Kersting S\u00f6ren Auer

EmoNet-Voice: 音声感情検出のための細かい粒度で専門家が確認したベンチマーク

要約

テキストから音声への変換モデルや音声生成モデルの進歩に伴い、AIシステムの感情理解能力を評価するための堅牢なベンチマークが必要となっています。現在の音声感情認識(SER)データセットは、しばしば感情の細かさ(granularity)、プライバシー問題、または演技に基づく表現への依存という制限を持っています。本論文では、新しい音声感情検出リソースであるEmoNet-Voiceを紹介します。これには、11の声質、40種類の感情、4つの言語を含む4,500時間以上の音声データで構成される大規模事前学習データセットEmoNet-Voice Bigと、人間の専門家によるアノテーションが付与された新しいベンチマークデータセットEmoNet-Voice Benchが含まれています。EmoNet-Voiceは、40種類の感情カテゴリーと異なる強度レベルを持つ微細なスペクトル上でSERモデルを評価することを目的として設計されています。最先端の音声生成技術を利用して、特定の感情を引き出すために設計されたシーンを模倣した合成音声スニペットを作成しました。重要なのは、心理学の専門家が厳密な検証を行い、知覚された強度ラベルを割り当てたことです。この合成かつプライバシー保護型アプローチにより、既存のデータセットではしばしば欠落しているような敏感な感情状態も含めることができます。最後に、Empathic Insight Voiceモデルを導入し、これは人間の専門家との高い合意率を持つ新たな標準となる音声感情認識モデルです。現行モデル群全体での評価結果は貴重な知見を示しており、例えば怒りなどの高興奮状態の感情は集中などの低興奮状態よりも遥かに検出が容易であることが明らかになりました。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
EmoNet-Voice: 音声感情検出のための細かい粒度で専門家が確認したベンチマーク | 論文 | HyperAI超神経