التفريق المراقب عبر الإنترنت باستخدام خسارة المتوسط العيني للبيانات متعددة المجالات

في الآونة الأخيرة، تم اقتراح نهج مُدرَّب بالكامل لتمييز المتكلمين (UIS-RNN) الذي يُمثّل المتكلمين باستخدام عدة نسخ من شبكة عصبية متكررة تشارك المعلمات. في هذه الورقة، نقترح تعديلات نوعية على النموذج تُحسّن بشكل كبير كفاءة التعلّم والأداء العام لتمييز المتكلمين. وتحديدًا، نقدّم دالة خسارة جديدة، نسمّيها "دالة الخسارة المتوسطة للعينة"، ونقدّم نموذجًا أفضل لسلوك تغيّر المتكلم من خلال اشتقاق تعبير تحليلي لحساب احتمالية انضمام متكلم جديد إلى الحوار. بالإضافة إلى ذلك، نُظهر أن نموذجنا يمكن تدريبه على مقاطع صوتية ذات طول ثابت، مما يُزيل الحاجة إلى معلومات تغيّر المتكلم أثناء الاستدلال. وباستخدام ميزات x-vectors كمدخلات، نقيّم النهج المقترح على مجموعة بيانات متعددة المجالات المستخدمة في تحدي DIHARD II: حيث يُظهر أسلوبنا المباشر تحسينًا ملحوظًا مقارنةً بالنموذج الأصلي UIS-RNN، ويحقق أداءً مشابهًا لأساسية التجميع التراكمي غير المباشر المستخدمة مع تقييم PLDA.