HEiMDaL: طريقة فعالة للغاية للكشف عن الكلمات المنبهة وتحديد موقعها

تمثّل كشف الكلمات المفتاحية في بثّ البيانات (Streaming keyword spotting) حلاً شائعاً لتفعيل المساعدات الصوتية. وقد أثبتت الطرق القائمة على الشبكات العصبية العميقة مع نموذج ماركوف المخفي (DNN-HMM) فعاليةً وشيوعاً كبيراً في هذا المجال، وذلك أساساً لقدرتها على اكتشاف وتحديد بداية ونهاية الكلمة التفعيلية بتكلفة حوسبة منخفضة. ومع ذلك، تعاني هذه الأنظمة الهجينة من تناقض في دالة الخسارة عند تدريب الشبكة العصبية العميقة (DNN) ونموذج ماركوف المخفي (HMM) بشكل منفصل. ولا يمكن للتدريب التمييزي المتسلسل تخفيف هذا التناقض بشكل كامل نظراً للطبيعة الماركوفية المتأصلة في عملية العمل. نقترح نموذجاً منخفض الحجم يعتمد على الشبكة العصبية التلافيفية (CNN)، يُسمّى HEiMDaL، لاكتشاف وتحديد موقع الكلمات المفتاحية في ظروف البثّ المباشر. ونُقدّم خسارة تصنيف قائمة على التوافق (alignment-based classification loss) لاكتشاف حدوث الكلمة المفتاحية، إلى جانب خسارة مُتحوّلة (offset loss) لتنبؤ ببداية الكلمة. تُظهر نتائج HEiMDaL تقلصاً بنسبة 73٪ في مقاييس الكشف، مع الحفاظ على دقة مماثلة في التحديد المكاني، وباستخدام نفس حجم الذاكرة المطلوب من النماذج الحالية القائمة على DNN-HMM لكلمة تفعيل معينة.