HyperAIHyperAI
منذ 9 أيام

الضبط التلقائي للتحصيل الطيفي لتمييز المتكلم باستخدام الفجوة ذات القيمة الذاتية القصوى القياسية

Tae Jin Park, Kyu J. Han, Manoj Kumar, Shrikanth Narayanan
الضبط التلقائي للتحصيل الطيفي لتمييز المتكلم باستخدام الفجوة ذات القيمة الذاتية القصوى القياسية
الملخص

في هذه الدراسة، نقترح إطارًا جديدًا للتحصيل الطيفي (spectral clustering) قادر على ضبط المعلمات الخاصة بخوارزمية التجميع تلقائيًا في سياق التمييز الصوتي للتحدث (speaker diarization). يستخدم الإطار المقترح قيم الفجوة الذاتية العظمى المعيارية (NME) لتقدير عدد المجموعات، بالإضافة إلى المعلمات الخاصة بالحد الأقصى لعناصر كل صف في مصفوفة التماثل (affinity matrix) أثناء التجميع الطيفي، دون الحاجة إلى ضبط المعلمات باستخدام مجموعة تطوير. وبالرغم من هذا النهج غير المُتدخل (hands-off)، نحقق أداءً مماثلًا أو أفضل من النتائج التي تُسجَّل باستخدام الطرق التقليدية للتحصيل التي تعتمد على ضبط دقيق للمعلمات واستخدام بيانات تطوير. وتُظهر نتيجة تحسن نسبي بنسبة 17% في معدل أخطاء المتحدث على مجموعة التقييم الشهيرة CALLHOME فعالية الإطار المقترح للتحصيل الطيفي مع الضبط التلقائي.

الضبط التلقائي للتحصيل الطيفي لتمييز المتكلم باستخدام الفجوة ذات القيمة الذاتية القصوى القياسية | أحدث الأوراق البحثية | HyperAI