نظام BUT للمحطة MLC-SLM

نقدم نظامًا تلقائيًا لالتعرف على الكلام (ASR) يضم متحدثين اثنين، يجمع بين DiCoW -- وهو نسخة مشروطة بالتحديد الزمني من Whisper -- و DiariZen، وهو خط أنابيب للتحديد الزمني مبني على Pyannote. أولاً، نقيم النظامين في سيناريوهات متعددة اللغات خارج المجال (OOD) دون أي تعديل دقيق. في هذا السيناريو، يتفوق DiariZen باستمرار على النموذج الأساسي لـ Pyannote في التحديد الزمني، مما يدل على قوة التعميم. رغم أن DiCoW تم تعديله بدقة باستخدام بيانات إنجليزية فقط للمتحدث المستهدف في نظام ASR، إلا أنه يحافظ على أداء متعدد اللغات قوي، مما يشير إلى أن التعديلات في المُشفِّر تحافظ على قدرات Whisper المتعددة اللغات. ثم نقوم بتعديل DiCoW و DiariZen بدقة باستخدام بيانات تحدي MLC-SLM. يستمر النموذج المعدل بدقة من DiariZen في التفوق على النموذج الأساسي المعدل بدقة من Pyannote، بينما يحقق DiCoW مكاسب إضافية من التكيف مع المجال. يصل نظامنا النهائي إلى نسبة micro-average tcpWER/CER تبلغ 16.75٪ ويحتل المركز الثاني في مهمة 2 من تحدي MLC-SLM. أخيرًا، نحدد عدة تناقضات في البيانات التدريبية -- مثل فواصل الكلام المفقودة وال Annotations الصمت غير الصحيحة -- والتي يمكن أن تعوق تعديل التحديد الزمني الدقيق. نقترح استراتيجيات بسيطة للتخفيف من هذه المشكلات وتحسين صلابة النظام.