HyperAIHyperAI

Command Palette

Search for a command to run...

نظام BUT للمحطة MLC-SLM

Alexander Polok Jiangyu Han Dominik Klement Samuele Cornell Jan \u010cernock\u00fd Luk\u00e1\u0161 Burget

الملخص

نقدم نظامًا تلقائيًا لالتعرف على الكلام (ASR) يضم متحدثين اثنين، يجمع بين DiCoW -- وهو نسخة مشروطة بالتحديد الزمني من Whisper -- و DiariZen، وهو خط أنابيب للتحديد الزمني مبني على Pyannote. أولاً، نقيم النظامين في سيناريوهات متعددة اللغات خارج المجال (OOD) دون أي تعديل دقيق. في هذا السيناريو، يتفوق DiariZen باستمرار على النموذج الأساسي لـ Pyannote في التحديد الزمني، مما يدل على قوة التعميم. رغم أن DiCoW تم تعديله بدقة باستخدام بيانات إنجليزية فقط للمتحدث المستهدف في نظام ASR، إلا أنه يحافظ على أداء متعدد اللغات قوي، مما يشير إلى أن التعديلات في المُشفِّر تحافظ على قدرات Whisper المتعددة اللغات. ثم نقوم بتعديل DiCoW و DiariZen بدقة باستخدام بيانات تحدي MLC-SLM. يستمر النموذج المعدل بدقة من DiariZen في التفوق على النموذج الأساسي المعدل بدقة من Pyannote، بينما يحقق DiCoW مكاسب إضافية من التكيف مع المجال. يصل نظامنا النهائي إلى نسبة micro-average tcpWER/CER تبلغ 16.75٪ ويحتل المركز الثاني في مهمة 2 من تحدي MLC-SLM. أخيرًا، نحدد عدة تناقضات في البيانات التدريبية -- مثل فواصل الكلام المفقودة وال Annotations الصمت غير الصحيحة -- والتي يمكن أن تعوق تعديل التحديد الزمني الدقيق. نقترح استراتيجيات بسيطة للتخفيف من هذه المشكلات وتحسين صلابة النظام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نظام BUT للمحطة MLC-SLM | مستندات | HyperAI