AISHELL-4 是由 8 通道圆形麦克风阵列收集的大型真实录制的普通话语音数据集,用于会议场景中的语音处理。该数据集由 211 个录制的会议会议组成,每个会议会议包含 4 至 8 名发言者,总时长为 120 小时。该数据集旨在从三个方面结合多说话人处理的先进研究和实际应用场景。通过真实录制的会议,AISHELL-4 在对话中提供逼真的声学效果和丰富的自然语音特征,如短暂停顿、语音重叠、发言者快速转向、噪音等。同时,AISHELL 中为每个会议提供准确的转录和发言者语音活动。这使得研究人员能够探索会议处理的不同方面,从语音前端处理、语音识别和说话人二值化等单独任务,到相关任务的多模态建模和联合优化。研究团队还发布了基于 PyTorch 的培训和评估框架作为基线系统,以促进该领域的可重复研究。
做种 1
下载中 1
已完成 43
总下载 202