BUTシステムのMLC-SLMチャレンジへの適用

本稿では、DiCoW(Diarization-Conditioned Whisperの変種)とDiariZen(Pyannoteを基盤とする話者分離パイプライン)を組み合わせた二話者自動音声認識(ASR)システムについて紹介します。まず、両システムを任意の微調整なしで、ドメイン外(OOD)の多言語シナリオにおいて評価しました。このシナリオでは、DiariZenがベースラインとなるPyannote話者分離モデルを一貫して上回り、強力な汎化能力を示しました。対象話者のASRのために英語のみのデータで微調整されたにもかかわらず、DiCoWは堅実な多言語性能を維持しており、エンコーダーの変更がWhisperの多言語機能を保っていることを示しています。次に、MLC-SLMチャレンジデータを使用してDiCoWとDiariZenの両方を微調整しました。微調整後のDiariZenは引き続き微調整されたPyannoteベースラインを上回り、一方DiCoWはドメイン適応によってさらなる改善が見られました。最終的なシステムはマイクロ平均tcpWER/CER 16.75% を達成し、MLC-SLMチャレンジのタスク2で2位となりました。最後に、訓練データにおけるいくつかのラベリングの一貫性欠如(例えば欠落した音声セグメントや誤った沈黙注釈など)が話者分離の微調整に悪影響を与える可能性があることを特定しました。これらの問題に対処し、システムの堅牢性を向上させるための単純な緩和策を提案しています。注:tcpWER/CER (time-conditioned phoneme word error rate / character error rate) は時間条件付き音素単語誤差率/文字誤差率という意味です。