11 天前

填充词检测与分类:一个数据集与基准测试

Ge Zhu, Juan-Pablo Caceres, Justin Salamon
填充词检测与分类:一个数据集与基准测试
摘要

诸如“呃”或“嗯”之类的填充词是人们在思考时用来表示停顿的语音或词汇。在媒体编辑过程中,识别并去除录音中的填充词是一项常见但繁琐的任务。若能自动检测并分类填充词,将极大提升该任务的效率,然而迄今为止,针对这一问题的研究仍十分有限。主要原因在于缺乏用于模型训练与评估的、带有填充词标注的语料数据集。在本研究中,我们提出了一种新型语音数据集——PodcastFillers,该数据集包含3.5万个标注的填充词,以及5万个在播客中常见的其他声音标注,如呼吸声、笑声和词语重复等。我们设计了一套处理流程,利用语音活动检测(VAD)与自动语音识别(ASR)技术识别填充词候选,再通过分类器对填充词类型进行区分。我们在PodcastFillers数据集上评估了所提出的流程,并与多种基线方法进行了对比,同时开展了详尽的消融实验。特别地,我们分析了引入ASR的重要性,并将其与不依赖转录的、类似关键词检测(keyword spotting)的方法进行了比较。实验结果表明,我们的方法达到了当前最优性能,且利用ASR的方案显著优于无转录的关键词检测方法。我们已将PodcastFillers数据集公开发布,旨在为未来相关研究提供基准参考。

填充词检测与分类:一个数据集与基准测试 | 最新论文 | HyperAI超神经