التمييز الكامل للمتحدثين

في هذا البحث، نقترح نهجًا مراقبًا بالكامل لتحديد المتحدثين، يُعرف باسم الشبكات العصبية التكرارية ذات الحالة المتشابكة غير المحددة (UIS-RNN). بناءً على المتجهات التمييزية للمتحدث (المعروفة أيضًا بـ d-vectors) المستخرجة من النصوص الصوتية المدخلة، يتم تمثيل كل متحدث فردي بواسطة شبكة عصبية تكرارية تشترك في المعلمات، بينما تتداخل حالات الشبكة العصبية التكرارية لمتحدثين مختلفين في المجال الزمني. يتم دمج هذه الشبكة العصبية التكرارية بشكل طبيعي مع عملية المطعم الصيني المعتمدة على المسافة (ddCRP) للتعامل مع عدد غير معروف من المتحدثين. نظامنا مراقب بالكامل ويمكنه التعلم من الأمثلة التي تحتوي على تسميات زمنية للمتحدثين. حققنا معدل خطأ في تحديد المتحدثين بنسبة 7.6% على مجموعة بيانات NIST SRE 2000 CALLHOME، وهو أفضل من الطريقة الأكثر تقدمًا باستخدام التجميع الطيفي. بالإضافة إلى ذلك، فإن طريقتنا تقوم بالفك شفرة بطريقة عبر الإنترنت بينما تعتمد معظم الأنظمة الأكثر تقدمًا على التجميع خارج الخط.