18 days ago
BUT系统用于MLC-SLM挑战赛
Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget

摘要
我们介绍了一种双讲者自动语音识别(ASR)系统,该系统结合了DiCoW——一种基于Whisper的说话人日志变体——与DiariZen,后者是在Pyannote基础上构建的说话人日志流水线。首先,我们在未进行任何微调的情况下评估了这两个系统在域外(OOD)多语言场景中的表现。在此场景中,DiariZen始终优于基准的Pyannote说话人日志模型,表现出强大的泛化能力。尽管DiCoW仅在英语数据上进行了目标讲者ASR的微调,但它仍保持了稳健的多语言性能,表明编码器修改保留了Whisper的多语言能力。接下来,我们使用MLC-SLM挑战数据对DiCoW和DiariZen进行了微调。微调后的DiariZen继续优于微调后的Pyannote基准模型,而DiCoW则通过领域适应进一步提升了性能。我们的最终系统实现了16.75%的微观平均tcpWER/CER,并在MLC-SLM挑战的第二项任务中排名第二。最后,我们发现了训练数据中的几个标签不一致问题——如缺失的语音段和错误的静音标注——这些问题可能会影响说话人日志的微调效果。我们提出了几种简单的缓解策略来解决这些问题并提高系统的鲁棒性。