HyperAIHyperAI
منذ 2 أشهر

تصنيف المتحدثين باستخدام LSTM

Quan Wang; Carlton Downey; Li Wan; Philip Andrew Mansfield; Ignacio Lopez Moreno
تصنيف المتحدثين باستخدام LSTM
الملخص

لسنوات عديدة، كانت تقنيات التضمين الصوتي المستندة إلى المتجهات-آي (i-vectors) هي النهج السائد في تطبيقات التحقق من هوية المتحدث وتقسيم المتحدثين (speaker diarization). ومع ذلك، انعكست صعود التعلم العميق في مجالات مختلفة، حيث أظهرت المتجهات-دي (d-vectors) المستندة إلى الشبكات العصبية باستمرار أداءً أفضل في التحقق من هوية المتحدث. في هذا البحث، نبني على نجاح أنظمة التحقق من هوية المتحدث المستندة إلى المتجهات-دي لتطوير نهج جديد مستند إلى المتجهات-دي لتقسيم المتحدثين. بوجه خاص، نجمع بين تضمينات الصوت للمتجهات-دي المستندة إلى LSTM والعمل الحديث في التجميع غير المعلمي للحصول على نظام تقسيم متحدثين متقدم. تم تقييم نظامنا على ثلاثة مجموعات بيانات عامة قياسية، مما يشير إلى أن أنظمة تقسيم المتحدثين المستندة إلى المتجهات-دي تقدم مزايا كبيرة مقارنة بأنظمة المتجهات-آي التقليدية. حققنا معدل خطأ قدره 12.0% في تقسيم المتحدثين على مجموعة بيانات NIST SRE 2000 CALLHOME، بينما تم تدريب نموذجنا باستخدام بيانات خارج المجال من سجلات البحث بالصوت.

تصنيف المتحدثين باستخدام LSTM | أحدث الأوراق البحثية | HyperAI