17 天前

用于多录入语音样本的自动说话人验证的注意力后端

Chang Zeng, Xin Wang, Erica Cooper, Xiaoxiao Miao, Junichi Yamagishi

摘要

在传统的说话人验证系统中，概率线性判别分析（PLDA）和余弦相似度作为后端技术被广泛用于度量语音样本之间的成对相似性。为了更充分地利用多个注册语音片段，本文提出了一种新型的注意力后端模型，该模型既适用于文本无关（TI）说话人验证，也适用于文本依赖（TD）说话人验证。该模型采用缩放点积自注意力（scaled-dot self-attention）与前馈自注意力网络（feed-forward self-attention networks）作为架构，以学习注册语音片段内部的内在关联关系。为验证所提注意力后端的有效性，我们将其与多种前沿说话人编码器（包括TDNN和ResNet）结合，在CNCeleb和VoxCeleb数据集上开展了一系列实验。在CNCeleb数据集上使用多个注册语音片段的实验结果表明，所提出的注意力后端模型在每种说话人编码器下均显著优于PLDA和余弦相似度方法，表现为更低的等错误率（EER）和最小检测代价函数（minDCF）得分；此外，在VoxCeleb数据集上的实验进一步表明，该模型在单注册语音场景下同样具备良好的适用性。