HyperAIHyperAI
منذ شهر واحد

التمييز الكامل للمتحدثين

Aonan Zhang; Quan Wang; Zhenyao Zhu; John Paisley; Chong Wang
التمييز الكامل للمتحدثين
الملخص

في هذا البحث، نقترح نهجًا مراقبًا بالكامل لتحديد المتحدثين، يُعرف باسم الشبكات العصبية التكرارية ذات الحالة المتشابكة غير المحددة (UIS-RNN). بناءً على المتجهات التمييزية للمتحدث (المعروفة أيضًا بـ d-vectors) المستخرجة من النصوص الصوتية المدخلة، يتم تمثيل كل متحدث فردي بواسطة شبكة عصبية تكرارية تشترك في المعلمات، بينما تتداخل حالات الشبكة العصبية التكرارية لمتحدثين مختلفين في المجال الزمني. يتم دمج هذه الشبكة العصبية التكرارية بشكل طبيعي مع عملية المطعم الصيني المعتمدة على المسافة (ddCRP) للتعامل مع عدد غير معروف من المتحدثين. نظامنا مراقب بالكامل ويمكنه التعلم من الأمثلة التي تحتوي على تسميات زمنية للمتحدثين. حققنا معدل خطأ في تحديد المتحدثين بنسبة 7.6% على مجموعة بيانات NIST SRE 2000 CALLHOME، وهو أفضل من الطريقة الأكثر تقدمًا باستخدام التجميع الطيفي. بالإضافة إلى ذلك، فإن طريقتنا تقوم بالفك شفرة بطريقة عبر الإنترنت بينما تعتمد معظم الأنظمة الأكثر تقدمًا على التجميع خارج الخط.

التمييز الكامل للمتحدثين | أحدث الأوراق البحثية | HyperAI