منذ 7 أشهر

الملخص

في هذا البحث، نقترح نهجًا مراقبًا بالكامل لتحديد المتحدثين، يُعرف باسم الشبكات العصبية التكرارية ذات الحالة المتشابكة غير المحددة (UIS-RNN). بناءً على المتجهات التمييزية للمتحدث (المعروفة أيضًا بـ d-vectors) المستخرجة من النصوص الصوتية المدخلة، يتم تمثيل كل متحدث فردي بواسطة شبكة عصبية تكرارية تشترك في المعلمات، بينما تتداخل حالات الشبكة العصبية التكرارية لمتحدثين مختلفين في المجال الزمني. يتم دمج هذه الشبكة العصبية التكرارية بشكل طبيعي مع عملية المطعم الصيني المعتمدة على المسافة (ddCRP) للتعامل مع عدد غير معروف من المتحدثين. نظامنا مراقب بالكامل ويمكنه التعلم من الأمثلة التي تحتوي على تسميات زمنية للمتحدثين. حققنا معدل خطأ في تحديد المتحدثين بنسبة 7.6% على مجموعة بيانات NIST SRE 2000 CALLHOME، وهو أفضل من الطريقة الأكثر تقدمًا باستخدام التجميع الطيفي. بالإضافة إلى ذلك، فإن طريقتنا تقوم بالفك شفرة بطريقة عبر الإنترنت بينما تعتمد معظم الأنظمة الأكثر تقدمًا على التجميع خارج الخط.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار