HyperAIHyperAI

Command Palette

Search for a command to run...

التفريق المراقب عبر الإنترنت باستخدام خسارة المتوسط العيني للبيانات متعددة المجالات

Enrico Fini Alessio Brutti

الملخص

في الآونة الأخيرة، تم اقتراح نهج مُدرَّب بالكامل لتمييز المتكلمين (UIS-RNN) الذي يُمثّل المتكلمين باستخدام عدة نسخ من شبكة عصبية متكررة تشارك المعلمات. في هذه الورقة، نقترح تعديلات نوعية على النموذج تُحسّن بشكل كبير كفاءة التعلّم والأداء العام لتمييز المتكلمين. وتحديدًا، نقدّم دالة خسارة جديدة، نسمّيها "دالة الخسارة المتوسطة للعينة"، ونقدّم نموذجًا أفضل لسلوك تغيّر المتكلم من خلال اشتقاق تعبير تحليلي لحساب احتمالية انضمام متكلم جديد إلى الحوار. بالإضافة إلى ذلك، نُظهر أن نموذجنا يمكن تدريبه على مقاطع صوتية ذات طول ثابت، مما يُزيل الحاجة إلى معلومات تغيّر المتكلم أثناء الاستدلال. وباستخدام ميزات x-vectors كمدخلات، نقيّم النهج المقترح على مجموعة بيانات متعددة المجالات المستخدمة في تحدي DIHARD II: حيث يُظهر أسلوبنا المباشر تحسينًا ملحوظًا مقارنةً بالنموذج الأصلي UIS-RNN، ويحقق أداءً مشابهًا لأساسية التجميع التراكمي غير المباشر المستخدمة مع تقييم PLDA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp