CSEMOTIONS 是由阿里巴巴于 2025 年发布的一个情绪音频数据集,相关论文成果为「Marco-Voice Technical Report」旨在支持可控性与自然语言语音生成领域的研究。
该数据集包含约 10 小时的高质量音频数据,涵盖 10 位专业配音演员(5 位男性、 5 位女性)在平静、快乐、愤怒、悲伤、惊讶、厌恶、恐惧七种情绪类别下的音频,每种情绪均包含 500-700 条中文文本的录音。
CSEMOTIONS 是由阿里巴巴于 2025 年发布的一个情绪音频数据集,相关论文成果为「Marco-Voice Technical Report」旨在支持可控性与自然语言语音生成领域的研究。
该数据集包含约 10 小时的高质量音频数据,涵盖 10 位专业配音演员(5 位男性、 5 位女性)在平静、快乐、愤怒、悲伤、惊讶、厌恶、恐惧七种情绪类别下的音频,每种情绪均包含 500-700 条中文文本的录音。