HyperAIHyperAI
منذ 2 أشهر

الوحدات المتكررة المُدارة بالضوء لتمييز الكلام

Mirco Ravanelli; Philemon Brakel; Maurizio Omologo; Yoshua Bengio
الوحدات المتكررة المُدارة بالضوء لتمييز الكلام
الملخص

من المجالات التي استفادت بشكل مباشر من التقدم الحديث في التعلم العميق هو التعرف الآلي على الكلام (ASR). ومع ذلك، فإن التفاعل الصوتي القوي والطبيعي بين الإنسان والآلة لا يزال يبدو بعيد المنال، خاصة في البيئات الصعبة المميزة بالضوضاء الكبيرة والإcho (الصدى). لتحسين القوة، غالباً ما تستخدم أجهزة التعرف على الكلام الحديث نماذج صوتية تعتمد على الشبكات العصبية المتكررة (RNNs)، والتي تتمتع بطبيعتها بقدرة فعالة على استغلال السياقات الزمنية الكبيرة والتعديلات طويلة الأجل في الكلام. ولذلك، فإن دراسة التقنيات المناسبة لتحسين فعالية RNNs في معالجة إشارات الكلام تعد ذات أهمية كبيرة.في هذا البحث، نعيد النظر في أحد أكثر نماذج RNNs شعبية، وهو وحدات التكرار المُحكَمة (GRUs)، ونقترح هندسة مبسطة ثبت أنها فعالة للغاية للتعرف الآلي على الكلام (ASR). يتكون الإسهام الرئيسي لهذا العمل من جزأين: أولاً، نحلل الدور الذي تلعبه بوابة إعادة الضبط (reset gate)، ونظهر أن هناك تكراراً كبيراً مع بوابة التحديث (update gate). نتيجة لذلك، نقترح إزالة البوابة الأولى من تصميم GRU، مما يؤدي إلى نموذج ذو بوابة واحدة أكثر كفاءة ومدمجة. ثانياً، نقترح استبدال دالة التنشيط tangens الزائدي بـ ReLU. هذه التعديلات تناسب بشكل جيد مع التطبيع الدُفعة وتستطيع مساعدة النموذج على تعلم الاعتمادات طويلة الأجل دون مشكلات رقمية.تظهر النتائج أن الهندسة المقترحة، والتي تم تسميتها GRU الخفيفة (Li-GRU)، لا تقلل فقط من وقت التدريب لكل عصر بنسبة تزيد عن 30% مقارنة بـ GRU القياسية، بل تحسن أيضًا دقة التعرف بشكل مستمر عبر مهام مختلفة ومعالم إدخال وظروف ضوضائية وكذلك عبر مختلف Paradigms للتعرف الآلي على الكلام (ASR)، بدءًا من مُعرِّفات الكلام التقليدية DNN-HMM وصولاً إلى نماذج CTC من النهاية إلى النهاية.