Command Palette
Search for a command to run...
AVSpeech – 视听语音数据集
AVSpeech 是一个新的、大规模的视听数据集,包括没有干扰的背景噪音的语音视频片段。这些片段的长度为 3-10 秒,在每个片段中,原声带中的听到的声音,属于视频中可看见的唯一在说话的人。
该数据集包含大约 4700 小时的视频片段,来自 29 万个 YouTube 视频,涵盖了各种各样的人、语言和面部姿势。
AVSpeech.torrent
做种 3正在下载 0已完成 2,819总下载次数 4,253