11 天前

大规模原始情感数据集及其聚合机制

Vladimir Kondratenko, Artem Sokolov, Nikolay Karpov, Oleg Kutuzov, Nikita Savushkin, Fyodor Minkin
大规模原始情感数据集及其聚合机制
摘要

我们提出了一种用于语音情感识别(Speech Emotion Recognition, SER)任务的新数据集,名为 Dusha。该语料库包含约350小时的语音数据,涵盖超过30万条俄语语音录音及其对应的转写文本,是目前规模最大、公开可用的双模态(音频与文本)SER数据集。数据集通过众包平台进行标注,包含两个子集:演绎类(acted)和真实场景类(real-life)。其中,演绎类子集的各类别分布更为均衡,而真实场景子集则由未经调控的播客音频构成,类别分布较为不均衡。因此,演绎类子集适用于模型预训练,而真实场景子集则更适合作为模型微调、性能验证与评估的基准。本文详细介绍了数据的预处理流程、标注方法,并基于基线模型开展实验,以展示利用 Dusha 数据集可获得的实际性能指标。

大规模原始情感数据集及其聚合机制 | 最新论文 | HyperAI超神经