11 天前
100,000 个播客:一个口语英语文档语料库
{Rosie Jones, Ben Carterette, Jussi Karlgren, Gareth Jones, Maria Eskevich, Hamed Bonab, Rezvaneh Rezapour, Aasish Pappu, Yongze Yu, Sravana Reddy, Ann Clifton}

摘要
播客是一种规模庞大且持续增长的口语音频资源库。作为一种音频格式,播客在风格和制作类型上比广播新闻更加多样,涵盖的题材也远超通常在视频数据中研究的范围,其风格与形式的多样性远高于以往的对话语料库。通过自动语音识别技术进行转写后,播客构成了一个噪声较多但极具研究价值的文档集合,可从自然语言处理、信息检索以及语言学等视角进行深入分析。结合原始音频文件,它们还可作为语音处理以及副语言特征、社会语言学和声学特性研究的重要资源。本文介绍了Spotify播客数据集(Spotify Podcast Dataset),这是一个包含10万集播客的新语料库。我们通过两个任务的案例研究展示了该领域的复杂性:(1)段落检索,(2)摘要生成。该数据集的规模远超以往用于检索与摘要任务的语音语料库,达到数量级上的提升。研究结果表明,该语料库的规模与多样性为相关研究开辟了全新的探索路径。