منذ 17 أيام

تحسين ما يهم: تدريب نموذج اكتشاف الكلمات المفتاحية DNN-HMM باستخدام المقياس النهائي

Ashish Shrivastava, Arnav Kundu, Chandra Dhir, Devang Naik, Oncel Tuzel

الملخص

تم استخدام طرق تعتمد على الشبكة العصبية العميقة-نموذج ماركوف المخفي (DNN-HMM) بنجاح في العديد من خوارزميات كشف الكلمة التنشيطية المستمرة (always-on keyword spotting) التي تُحدد كلمة التنشيط لتفعيل الجهاز. حيث تقوم الشبكة العصبية العميقة (DNN) بتوقع احتمالات الحالة لكل إطار صوتي معين، بينما يقوم مُفكك نموذج ماركوف المخفي (HMM) بدمج توقعات DNN عبر عدة إطارات صوتية لحساب درجة كشف الكلمة المفتاحية. في الطرق السابقة، يتم تدريب DNN بشكل مستقل عن معاملات HMM بهدف تقليل خسارة التباعد المعلوماتي (cross-entropy) بين الاحتمالات المُتنبأ بها والاحتمالات الحقيقية (ground-truth). وتمثل عدم التوافق بين دالة الخسارة المستخدمة في تدريب DNN (التباعد المعلوماتي) والمقاييس النهائية (درجة الكشف) المصدر الرئيسي لأداء غير مثالي في مهام كشف الكلمة المفتاحية. ولحل هذه المشكلة، نقدّم استراتيجية تدريب من النهاية إلى النهاية جديدة، تُدرّب معاملات DNN من خلال تحسين درجة الكشف. ولتحقيق ذلك، نجعل مُفكك HMM (البرمجة الديناميكية) قابلاً للتفاضل، ونُعيد التغذية العكسية من خلاله لزيادة درجة الكشف للكلمة المفتاحية وتقليل درجات الكشف للقطع الصوتية غير المرتبطة بالكلمة المفتاحية. لا تتطلب طريقة العمل هذه أي تغيير في بنية النموذج أو إطار الاستدلال، وبالتالي لا تُحدث أي زيادة في متطلبات الذاكرة أو الحوسبة أثناء التنفيذ. علاوة على ذلك، نُظهر تقليلًا كبيرًا في معدل الرفض الخاطئ (FRR) مع الحفاظ على نفس مستوى التفعيل الخاطئ (false trigger)، بنسبة تفوق 70% مقارنة بالتدريب المستقل لـ DNN.