HyperAIHyperAI

Command Palette

Search for a command to run...

تصنيف المتحدثين باستخدام LSTM

Author1 Author2

الملخص

لسنوات عديدة، كانت تقنيات التضمين الصوتي المستندة إلى المتجهات-آي (i-vectors) هي النهج السائد في تطبيقات التحقق من هوية المتحدث وتقسيم المتحدثين (speaker diarization). ومع ذلك، انعكست صعود التعلم العميق في مجالات مختلفة، حيث أظهرت المتجهات-دي (d-vectors) المستندة إلى الشبكات العصبية باستمرار أداءً أفضل في التحقق من هوية المتحدث. في هذا البحث، نبني على نجاح أنظمة التحقق من هوية المتحدث المستندة إلى المتجهات-دي لتطوير نهج جديد مستند إلى المتجهات-دي لتقسيم المتحدثين. بوجه خاص، نجمع بين تضمينات الصوت للمتجهات-دي المستندة إلى LSTM والعمل الحديث في التجميع غير المعلمي للحصول على نظام تقسيم متحدثين متقدم. تم تقييم نظامنا على ثلاثة مجموعات بيانات عامة قياسية، مما يشير إلى أن أنظمة تقسيم المتحدثين المستندة إلى المتجهات-دي تقدم مزايا كبيرة مقارنة بأنظمة المتجهات-آي التقليدية. حققنا معدل خطأ قدره 12.0% في تقسيم المتحدثين على مجموعة بيانات NIST SRE 2000 CALLHOME، بينما تم تدريب نموذجنا باستخدام بيانات خارج المجال من سجلات البحث بالصوت.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp