منذ 7 أشهر

الملخص

لسنوات عديدة، كانت تقنيات التضمين الصوتي المستندة إلى المتجهات-آي (i-vectors) هي النهج السائد في تطبيقات التحقق من هوية المتحدث وتقسيم المتحدثين (speaker diarization). ومع ذلك، انعكست صعود التعلم العميق في مجالات مختلفة، حيث أظهرت المتجهات-دي (d-vectors) المستندة إلى الشبكات العصبية باستمرار أداءً أفضل في التحقق من هوية المتحدث. في هذا البحث، نبني على نجاح أنظمة التحقق من هوية المتحدث المستندة إلى المتجهات-دي لتطوير نهج جديد مستند إلى المتجهات-دي لتقسيم المتحدثين. بوجه خاص، نجمع بين تضمينات الصوت للمتجهات-دي المستندة إلى LSTM والعمل الحديث في التجميع غير المعلمي للحصول على نظام تقسيم متحدثين متقدم. تم تقييم نظامنا على ثلاثة مجموعات بيانات عامة قياسية، مما يشير إلى أن أنظمة تقسيم المتحدثين المستندة إلى المتجهات-دي تقدم مزايا كبيرة مقارنة بأنظمة المتجهات-آي التقليدية. حققنا معدل خطأ قدره 12.0% في تقسيم المتحدثين على مجموعة بيانات NIST SRE 2000 CALLHOME، بينما تم تدريب نموذجنا باستخدام بيانات خارج المجال من سجلات البحث بالصوت.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار