2 个月前

基于GPU加速的引导源分离在会议转录中的应用

Raj, Desh ; Povey, Daniel ; Khudanpur, Sanjeev
基于GPU加速的引导源分离在会议转录中的应用
摘要

引导源分离(GSS)是一种依赖预先计算的说话者活动和盲源分离来对重叠语音信号进行前端增强的目标说话者提取方法。该方法首次在CHiME-5挑战赛中被提出,并相对于延迟求和波束形成基线提供了显著的改进。然而,尽管其具有诸多优势,但由于计算时间较长,该方法在会议转录基准测试中的应用仍较为有限。本文描述了我们改进的GSS实现方案,通过利用现代基于GPU的流水线(包括频率和段落的批处理),实现了比基于CPU的推理快300倍的速度提升。改进后的推理时间使我们能够对GSS算法的多个参数(如上下文持续时间、通道数量和噪声类别等)进行详细的消融研究。我们为流行的会议转录基准测试(LibriCSS、AMI和AliMeeting)提供了端到端可复现的管道,用于带有说话者属性的转录。我们的代码和配置文件已公开发布:https://github.com/desh2608/gss。