HyperAIHyperAI

Command Palette

Search for a command to run...

التمييز الكامل للمتحدثين

Aonan Zhang Quan Wang Zhenyao Zhu John Paisley Chong Wang

الملخص

في هذا البحث، نقترح نهجًا مراقبًا بالكامل لتحديد المتحدثين، يُعرف باسم الشبكات العصبية التكرارية ذات الحالة المتشابكة غير المحددة (UIS-RNN). بناءً على المتجهات التمييزية للمتحدث (المعروفة أيضًا بـ d-vectors) المستخرجة من النصوص الصوتية المدخلة، يتم تمثيل كل متحدث فردي بواسطة شبكة عصبية تكرارية تشترك في المعلمات، بينما تتداخل حالات الشبكة العصبية التكرارية لمتحدثين مختلفين في المجال الزمني. يتم دمج هذه الشبكة العصبية التكرارية بشكل طبيعي مع عملية المطعم الصيني المعتمدة على المسافة (ddCRP) للتعامل مع عدد غير معروف من المتحدثين. نظامنا مراقب بالكامل ويمكنه التعلم من الأمثلة التي تحتوي على تسميات زمنية للمتحدثين. حققنا معدل خطأ في تحديد المتحدثين بنسبة 7.6% على مجموعة بيانات NIST SRE 2000 CALLHOME، وهو أفضل من الطريقة الأكثر تقدمًا باستخدام التجميع الطيفي. بالإضافة إلى ذلك، فإن طريقتنا تقوم بالفك شفرة بطريقة عبر الإنترنت بينما تعتمد معظم الأنظمة الأكثر تقدمًا على التجميع خارج الخط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp