8 个月前

摘要

在本文中，我们提供了一个大规模的视听说话人识别数据集VoxBlink2，该数据集包含来自超过11万名说话人的约1000万条带有视频的语音片段。与VoxBlink数据集相比，这一数据集通过优化的数据收集流程，显著扩展了说话人和场景的多样性。随后，我们探讨了训练策略、数据规模和模型复杂度对说话人验证的影响，并最终在VoxCeleb1-O测试集上建立了单模型最新的等错误率（EER）为0.170%和最小检测代价函数（minDCF）为0.006%的记录。这些显著的结果激励我们从一个新的具有挑战性的角度探索说话人识别问题。我们提出了开放集说话人识别任务，该任务旨在将一个探针语音片段与已知的画廊说话人匹配，或将该片段归类为未知查询。为此任务，我们设计了具体的基准测试和评估协议。相关数据和模型资源可以在http://voxblink2.github.io获取。

源 PDF 查看代码