
摘要
自监督学习方法(如 wav2vec 2.0)在从无标签、无转录的语音数据中学习具有实用价值的语音表征方面展现了令人瞩目的成果,这些表征可有效提升语音识别性能。由于这些表征是在无需特定任务监督的情况下学习得到的,因此也可广泛应用于其他语音激活任务,例如说话人验证、关键词检测、情感分类等。在本研究中,我们提出了一种通用框架,用于将预训练的 wav2vec 2.0 模型适配至多种语音激活任务。我们设计了下游网络架构,作用于 wav2vec 2.0 所生成的上下文感知语音表征,以实现对特定任务的表征优化。此外,我们进一步扩展该框架,通过共享的 Transformer 主干网络,联合优化多个语音激活任务的网络参数,实现多任务学习。无论是单任务还是多任务框架,我们的方法在说话人验证与关键词检测基准测试中均取得了当前最优性能。在分别基于 VoxCeleb2 和 VoxCeleb1 数据集训练的情况下,我们的最优模型在 VoxCeleb1 测试集上分别实现了 1.98% 和 3.15% 的等错误率(EER);在 Google Speech Commands v1.0 关键词检测数据集上,准确率达到了 98.23%。