BUT 시스템의 MLC-SLM 도전

우리는 DiCoW -- Whisper의 화자 분리 조건부 변형 -- 와 DiariZen, Pyannote를 기반으로 구축된 화자 분리 파이프라인을 결합한 두 화자 자동 음성 인식(ASR) 시스템을 제시합니다. 먼저, 어떤 미세 조정(fine-tuning)도 없이 영역 외(out-of-domain, OOD) 다국어 시나리오에서 두 시스템을 평가합니다. 이 시나리오에서 DiariZen은 기준 Pyannote 화자 분리 모델을 일관되게 능가하며, 강력한 일반화 능력을 입증합니다. 대상 화자 ASR에 대해 영어 데이터만으로 미세 조정되었음에도 불구하고, DiCoW는 견고한 다국어 성능을 유지하여 인코더 수정이 Whisper의 다국어 능력을 보존한다는 것을 나타냅니다. 그 다음, 우리는 MLC-SLM 챌린지 데이터를 사용하여 DiCoW와 DiariZen을 미세 조정합니다. 미세 조정된 DiariZen은 여전히 미세 조정된 Pyannote 기준 모델보다 우수한 성능을 보이는 반면, DiCoW는 영역 적응(domain adaptation)으로부터 추가적인 개선 효과를 얻습니다. 우리의 최종 시스템은 마이크로 평균 tcpWER/CER 16.75%를 달성하고 MLC-SLM 챌린지의 작업 2에서 두 번째로 높은 순위를 기록했습니다. 마지막으로, 훈련 데이터에서 여러 라벨링 불일치 문제 -- 예를 들어 누락된 음성 세그먼트와 잘못 표기된 침묵 주석 -- 가 화자 분리 미세 조정에 방해가 될 수 있음을 확인하였습니다. 이러한 문제들을 해결하고 시스템의 견고성을 개선하기 위한 간단한 완화 전략을 제안합니다.