Command Palette
Search for a command to run...
Christoph Schuhmann Robert Kaczmarczyk Gollam Rabby Felix Friedrich Maurice Kraus Kourosh Nadi Huu Nguyen Kristian Kersting S\u00f6ren Auer

摘要
文本到语音和音频生成模型的发展需要稳健的基准来评估人工智能系统的情感理解能力。当前的语音情感识别(SER)数据集通常在情感细腻度、隐私问题或依赖于表演方面存在局限性。本文介绍了一种新的语音情感检测资源——EmoNet-Voice,其中包括 EmoNet-Voice Big,一个大规模的预训练数据集(包含超过 4,500 小时的语音,涵盖 11 种声音、40 种情感和 4 种语言),以及 EmoNet-Voice Bench,一个具有人类专家注释的新基准数据集。EmoNet-Voice 被设计用于在 40 种不同强度的情感类别上评估 SER 模型。利用最先进的语音生成技术,我们精心策划了合成音频片段,模拟演员表演旨在引发特定情感的场景。重要的是,我们通过心理学专家进行了严格的验证,这些专家为每段音频分配了感知强度标签。这种合成且保护隐私的方法使得包含现有数据集中通常缺失的敏感情感状态成为可能。最后,我们介绍了 Empathic Insight Voice 模型,该模型在语音情感识别方面树立了新标准,并与人类专家的高度一致性。我们在当前模型领域的评估中得出了有价值的发现,例如高唤醒度的情感如愤怒比低唤醒度的状态如专注更容易被检测到。