HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين ما يهم: تدريب نموذج اكتشاف الكلمات المفتاحية DNN-HMM باستخدام المقياس النهائي

Ashish Shrivastava Arnav Kundu Chandra Dhir Devang Naik Oncel Tuzel

الملخص

تم استخدام طرق تعتمد على الشبكة العصبية العميقة-نموذج ماركوف المخفي (DNN-HMM) بنجاح في العديد من خوارزميات كشف الكلمة التنشيطية المستمرة (always-on keyword spotting) التي تُحدد كلمة التنشيط لتفعيل الجهاز. حيث تقوم الشبكة العصبية العميقة (DNN) بتوقع احتمالات الحالة لكل إطار صوتي معين، بينما يقوم مُفكك نموذج ماركوف المخفي (HMM) بدمج توقعات DNN عبر عدة إطارات صوتية لحساب درجة كشف الكلمة المفتاحية. في الطرق السابقة، يتم تدريب DNN بشكل مستقل عن معاملات HMM بهدف تقليل خسارة التباعد المعلوماتي (cross-entropy) بين الاحتمالات المُتنبأ بها والاحتمالات الحقيقية (ground-truth). وتمثل عدم التوافق بين دالة الخسارة المستخدمة في تدريب DNN (التباعد المعلوماتي) والمقاييس النهائية (درجة الكشف) المصدر الرئيسي لأداء غير مثالي في مهام كشف الكلمة المفتاحية. ولحل هذه المشكلة، نقدّم استراتيجية تدريب من النهاية إلى النهاية جديدة، تُدرّب معاملات DNN من خلال تحسين درجة الكشف. ولتحقيق ذلك، نجعل مُفكك HMM (البرمجة الديناميكية) قابلاً للتفاضل، ونُعيد التغذية العكسية من خلاله لزيادة درجة الكشف للكلمة المفتاحية وتقليل درجات الكشف للقطع الصوتية غير المرتبطة بالكلمة المفتاحية. لا تتطلب طريقة العمل هذه أي تغيير في بنية النموذج أو إطار الاستدلال، وبالتالي لا تُحدث أي زيادة في متطلبات الذاكرة أو الحوسبة أثناء التنفيذ. علاوة على ذلك، نُظهر تقليلًا كبيرًا في معدل الرفض الخاطئ (FRR) مع الحفاظ على نفس مستوى التفعيل الخاطئ (false trigger)، بنسبة تفوق 70% مقارنة بالتدريب المستقل لـ DNN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp