VoxCeleb2 是一个源自开源媒体的大规模说话人 (Speaker) 识别数据集,由超过 6 千名说话者的一百万条语料组成。由于该数据集是在自然场景中收集的,因此语音片段中不乏笑声、交谈声、频道效果、音乐等干扰。
VoxCeleb2 中的语料是多语言的,说话者来自 145 个国家,涵盖了广泛的口音、年龄、种族和语种。同时该数据集包括音频和视频,也适用于解决可视语音合成 (visual speech synthesis) 、语音分离 (speech separation) 、 face-voice 跨模态转换、视频人脸识别等问题。
数据集详情:
做种 2
下载中 0
已完成 409
总下载 1,043