HyperAIHyperAI
منذ 17 أيام

الاستخلاص المعرفي الزمني للتصنيف الصوتي على الأجهزة المحمولة

Kwanghee Choi, Martin Kersner, Jacob Morton, Buru Chang
الاستخلاص المعرفي الزمني للتصنيف الصوتي على الأجهزة المحمولة
الملخص

يظل تحسين أداء نماذج تصنيف الصوت المُدمجة في الأجهزة تحديًا نظرًا للقيود الحسابية البيئة المحمولة. وتعتمد العديد من الدراسات على تقنية تحويل المعرفة (Knowledge Distillation) لتعزيز الأداء التنبؤي من خلال نقل المعرفة من النماذج الكبيرة إلى النماذج المُدمجة في الأجهزة. ومع ذلك، فإن معظم هذه الدراسات تفتقر إلى آلية لتحويل الجوهر المتعلق بالمعلومات الزمنية، التي تُعد حاسمة في مهام تصنيف الصوت، أو تتطلب غالبًا بنية متشابهة. في هذه الورقة، نقترح طريقة جديدة لتحويل المعرفة مصممة لدمج المعرفة الزمنية المُضمنة في معاملات الانتباه (Attention Weights) للنماذج الكبيرة القائمة على المحولات (Transformers) داخل النماذج المُدمجة في الأجهزة. تُطبّق طريقة تحويل المعرفة هذه على أنواع متعددة من البنية المعمارية، بما في ذلك البنية غير القائمة على الانتباه مثل الشبكات العصبية التلافيفية (CNNs) أو الشبكات العصبية التكرارية (RNNs)، مع الحفاظ على البنية الأصلية للشبكة أثناء عملية الاستنتاج. ونُظهر من خلال تجارب واسعة على مجموعة بيانات كشف الأحداث الصوتية، وعلى مجموعة بيانات كشف الكلمات المفتاحية في بيئة صاخبة، أن الطريقة المقترحة تحسن الأداء التنبؤي عبر مجموعة متنوعة من البنية المعمارية المُدمجة في الأجهزة.