BUT-System für die MLC-SLM-Herausforderung

Wir präsentieren ein automatisches Spracherkennungssystem (ASR) für zwei Sprecher, das DiCoW – eine diarisierungsbedingte Variante von Whisper – mit DiariZen kombiniert, einer auf Pyannote basierenden Diarisierungspipeline. Zunächst bewerten wir beide Systeme in außerdomänen (OOD) multilingualen Szenarien ohne jede Feinabstimmung. In diesem Szenario übertrifft DiariZen konsistent das Baseline-Diarisierungsmodell von Pyannote und zeigt starke Generalisierungsfähigkeiten. Trotz der Feinabstimmung anhand englischsprachiger Daten für die Ziel-Sprecher-ASR behält DiCoW eine solide multilinguale Leistung, was darauf hinweist, dass die Encoder-Modifikationen Whispers multilinguale Fähigkeiten erhalten. Anschließend führen wir eine Feinabstimmung sowohl von DiCoW als auch von DiariZen an den Daten des MLC-SLM-Challenges durch. Das feinabgestimmte DiariZen übertrifft weiterhin das feinabgestimmte Pyannote-Baseline-Modell, während DiCoW zusätzliche Verbesserungen durch die Domänenanpassung erzielt. Unser endgültiges System erreicht einen mikro-durchschnittlichen tcpWER/CER-Wert von 16,75 % und belegt den zweiten Platz in Aufgabe 2 des MLC-SLM-Challenges. Schließlich identifizieren wir mehrere Beschriftungsinkonsistenzen in den Trainingsdaten – wie fehlende Sprachsegmente und falsche Stillschweigeannotierungen –, die die Feinabstimmung der Diarisierung behindern können. Wir schlagen einfache Maßnahmen zur Behebung dieser Probleme vor, um die Robustheit des Systems zu verbessern.