HyperAI
il y a 18 jours

Système BUT pour le Défi MLC-SLM

Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget
Système BUT pour le Défi MLC-SLM
Résumé

Nous présentons un système de reconnaissance automatique de la parole (ASR) à deux locuteurs qui combine DiCoW -- une variante de Whisper conditionnée par la diarisation -- avec DiariZen, une chaîne de traitement de diarisation basée sur Pyannote. Nous évaluons d'abord les deux systèmes dans des scénarios multilingues hors domaine (OOD) sans aucun ajustement fin. Dans ce contexte, DiariZen surpasse constamment le modèle de base Pyannote pour la diarisation, démontrant une forte généralisation. Bien que DiCoW ait été ajusté uniquement sur des données en anglais pour la reconnaissance automatique de la parole du locuteur cible, il conserve une performance multilingue solide, indiquant que les modifications de l'encodeur préservent les capacités multilingues de Whisper. Nous ajustons ensuite DiCoW et DiariZen sur les données du défi MLC-SLM. Le DiariZen ajusté continue à surpasser le modèle Pyannote ajusté, tandis que DiCoW bénéficie d'améliorations supplémentaires grâce à l'adaptation au domaine. Notre système final atteint un tcpWER/CER micro-moyen de 16,75 % et se classe deuxième dans la Tâche 2 du défi MLC-SLM. Enfin, nous identifions plusieurs incohérences d'étiquetage dans les données d'entraînement -- telles que des segments vocaux manquants et des annotations de silence incorrectes -- qui peuvent entraver l'ajustement fin de la diarisation. Nous proposons des stratégies simples d'atténuation pour résoudre ces problèmes et améliorer la robustesse du système.