HyperAIHyperAI

Command Palette

Search for a command to run...

الوحدات المتكررة المُدارة بالضوء لتمييز الكلام

Luca Calvi Stefano Fasciolo Marco Zancanaro

الملخص

من المجالات التي استفادت بشكل مباشر من التقدم الحديث في التعلم العميق هو التعرف الآلي على الكلام (ASR). ومع ذلك، فإن التفاعل الصوتي القوي والطبيعي بين الإنسان والآلة لا يزال يبدو بعيد المنال، خاصة في البيئات الصعبة المميزة بالضوضاء الكبيرة والإcho (الصدى). لتحسين القوة، غالباً ما تستخدم أجهزة التعرف على الكلام الحديث نماذج صوتية تعتمد على الشبكات العصبية المتكررة (RNNs)، والتي تتمتع بطبيعتها بقدرة فعالة على استغلال السياقات الزمنية الكبيرة والتعديلات طويلة الأجل في الكلام. ولذلك، فإن دراسة التقنيات المناسبة لتحسين فعالية RNNs في معالجة إشارات الكلام تعد ذات أهمية كبيرة.في هذا البحث، نعيد النظر في أحد أكثر نماذج RNNs شعبية، وهو وحدات التكرار المُحكَمة (GRUs)، ونقترح هندسة مبسطة ثبت أنها فعالة للغاية للتعرف الآلي على الكلام (ASR). يتكون الإسهام الرئيسي لهذا العمل من جزأين: أولاً، نحلل الدور الذي تلعبه بوابة إعادة الضبط (reset gate)، ونظهر أن هناك تكراراً كبيراً مع بوابة التحديث (update gate). نتيجة لذلك، نقترح إزالة البوابة الأولى من تصميم GRU، مما يؤدي إلى نموذج ذو بوابة واحدة أكثر كفاءة ومدمجة. ثانياً، نقترح استبدال دالة التنشيط tangens الزائدي بـ ReLU. هذه التعديلات تناسب بشكل جيد مع التطبيع الدُفعة وتستطيع مساعدة النموذج على تعلم الاعتمادات طويلة الأجل دون مشكلات رقمية.تظهر النتائج أن الهندسة المقترحة، والتي تم تسميتها GRU الخفيفة (Li-GRU)، لا تقلل فقط من وقت التدريب لكل عصر بنسبة تزيد عن 30% مقارنة بـ GRU القياسية، بل تحسن أيضًا دقة التعرف بشكل مستمر عبر مهام مختلفة ومعالم إدخال وظروف ضوضائية وكذلك عبر مختلف Paradigms للتعرف الآلي على الكلام (ASR)، بدءًا من مُعرِّفات الكلام التقليدية DNN-HMM وصولاً إلى نماذج CTC من النهاية إلى النهاية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp