HyperAI
Command Palette
Search for a command to run...
Simple Voice Questions(简称 SVQ) 是由 Google 发布的一个简短音频数据集,是 Massive Sound Embedding Benchmark (MSEB) 的核心评估组件。 该数据集为多语言语音数据集,包含 26 个地区的 17 种语言下的简短音频问题,共计约 700 名说话者,每人最多提供 250 条语音样本,涵盖阿拉伯语、英语、日语、韩语、印地语等多种语言,并包含安静环境、背景人声及交通噪声等多样化录音条件。数据对说话者性别进行标注,包含女性、男性、非二元及未作答四类,在语言与声学场景上具备较高多样性。
数据字段:
- utt_id: 字符串类型,表示录音的唯一标识。
- waveform: 音频类型,采样率为 16,000 。
- locale: 字符串类型,表示录音地区。
- speaker_id: 字符串类型,表示说话者的唯一标识。
- speaker_age: 32 位整数,表示说话者年龄。
- speaker_gender: 字符串类型,表示说话者性别。
- environment: 字符串类型,表示录音环境。
- text: 字符串类型,表示录音文本内容。
- topk_salient_terms: 字符串列表,表示关键词。
- topk_salient_terms_timestamps: 浮点数列表,表示关键词的时间戳。
此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。