日期
大小
机构
发布地址
looking-to-listen.github.io
标签
国外企业
影音
社交
自然语言处理
分类
语音识别
AVSpeech 是一个新的、大规模的视听数据集,包括没有干扰的背景噪音的语音视频片段。这些片段的长度为 3-10 秒,在每个片段中,原声带中的听到的声音,属于视频中可看见的唯一在说话的人。
该数据集包含大约 4700 小时的视频片段,来自 29 万个 YouTube 视频,涵盖了各种各样的人、语言和面部姿势。
做种 3
下载中 1
已完成 1,687
总下载 3,291