HyperAIHyperAI
منذ 17 أيام

التركيب الفعّال بين DenseNet وBiLSTM للكشف عن الكلمات المفتاحية

{N. Xiao, M. Zeng}
الملخص

تمثّل مُعالجة التعرف على الكلمات المفتاحية (KWS) عنصراً أساسياً في التفاعل بين الإنسان والحاسوب بالنسبة للأجهزة الذكية المحمولة والروبوتات الخدمية، حيث يهدف هذا النظام إلى تعظيم دقة الكشف مع الحفاظ على حجم النموذج الصغير. في هذه الورقة البحثية، وباستناداً إلى القدرة القوية لشبكة DenseNet في استخراج خرائط الميزات المحلية، نقترح بنية شبكة جديدة تُسمى DenseNet-BiLSTM للتعامل مع مهام KWS. في بنية DenseNet-BiLSTM، تُستخدم شبكة DenseNet أساساً لاستخلاص الميزات المحلية، بينما تُوظّف الشبكة BiLSTM لاستخلاص الميزات الزمنية المتسلسلة. في الممارسة العادية، تُستخدم شبكة DenseNet في المهام المتعلقة بالرؤية الحاسوبية، وقد تؤدي إلى تلف المعلومات السياقية عند تطبيقها على البيانات الصوتية للغة. ولجعل DenseNet مناسبة لمهام KWS، نقترح نسخة معدلة تُسمى DenseNet-Speech، والتي تُزيل طبقة التجميع (pooling) على المحور الزمني في الطبقات الانتقالية، بهدف الحفاظ على المعلومات الزمنية للصوت. بالإضافة إلى ذلك، تُستخدم في DenseNet-Speech عدد أقل من الكتل الكثيفة (dense blocks) ومرشحات (filters)، مما يسهم في الحفاظ على حجم النموذج الصغير، وبالتالي تقليل استهلاك الوقت على الأجهزة المحمولة. أظهرت النتائج التجريبية أن خرائط الميزات المستخرجة من DenseNet-Speech تحتفظ بشكل جيد بمعلومات التسلسل الزمني. كما تفوقت طريقةنا على الطرق الحديثة الأكثر تقدماً من حيث الدقة على مجموعة بيانات Google Speech Commands. وباستخدام شبكة DenseNet-BiLSTM، تم تحقيق دقة تبلغ 96.6% في مهمة التعرف على 20 كلمة مفتاحية، مع 223,000 معلمة قابلة للتدريب.