HyperAIHyperAI
منذ 2 أشهر

آلية الانتباه متعددة الطبقات للاعتراف بكلمات المفتاح في الكلام

Ruisen Luo; Tianran Sun; Chen Wang; Miao Du; Zuodong Tang; Kai Zhou; Xiaofeng Gong; Xiaomei Yang
آلية الانتباه متعددة الطبقات للاعتراف بكلمات المفتاح في الكلام
الملخص

بصفتها جزءًا مهمًا من تقنية التعرف على الكلام، تم دراسة التعرف التلقائي على الكلمات الرئيسية في الكلام بشكل مكثف في السنوات الأخيرة. تصبح هذه التقنية ذات أهمية خاصة في المواقف التي تكون فيها البنية التحتية والموارد الحسابية محدودة، مثل التعرف على أوامر الصوت في السيارات والتفاعل مع الروبوتات. حاليًا، تعتمد الطرق الرئيسية في التعرف التلقائي على الكلمات الرئيسية في الكلام على شبكات الذاكرة طويلة المدى قصيرة المدى (LSTM) مع آلية الانتباه. ومع ذلك، بسبب الخسائر المعلوماتية الحتمية التي تحدث خلال استخراج الميزات للطبقة LSTM، فإن أوزان الانتباه المحسوبة تكون متحيزة. في هذا البحث، يتم اقتراح نهج جديد يُسمى آلية الانتباه متعددة الطبقات لمعالجة مشكلة أوزان الانتباه غير الدقيقة. الفكرة الأساسية هي أن بالإضافة إلى آلية الانتباه التقليدية، يتم إدخال معلومات الطبقات السابقة لاستخراج الميزات وطبقة LSTM في حسابات أوزان الانتباه. وبالتالي، تكون أوزان الانتباه أكثر دقة لأن النموذج الكلي يمكنه الحصول على مناطق أكثر دقة وتركيزًا. نقوم بإجراء مقارنة شاملة وتحليل لأداء رصد الكلمات الرئيسية باستخدام شبكات العصبونات المتلافهة (CNN)، وشبكات العصبونات الدائرية ثنائية الاتجاه (Bi-LSTM)، وشبكات العصبونات الدائرية مع آلية الانتباه المقترحة على مجموعة بيانات أوامر الصوت من Google V2. تشير نتائج التجارب إلى نتائج مواتية للطريقة المقترحة وتثبت صلاحية هذه الطريقة. يمكن أن تكون طرق آليات الانتباه متعددة الطبقات المقترحة مفيدة للأبحاث الأخرى المتعلقة برصد الأشياء.