HyperAIHyperAI
منذ 2 أشهر

تحسين آلية البوابة في الشبكات العصبية التكرارية

Albert Gu; Caglar Gulcehre; Tom Le Paine; Matt Hoffman; Razvan Pascanu
تحسين آلية البوابة في الشبكات العصبية التكرارية
الملخص

الآليات البوابية تُستخدم على نطاق واسع في نماذج الشبكات العصبية، حيث تسمح بمرور التدرجات (gradients) بشكل أكثر سهولة عبر العمق أو الزمن. ومع ذلك، فإن خاصية التشبع (saturation property) لهذه الآليات تُثير مشاكلها الخاصة. على سبيل المثال، في النماذج المتكررة (recurrent models)، تحتاج هذه الأبواب إلى إنتاج قيم قريبة من 1 لنقل المعلومات عبر فترات زمنية طويلة، مما يتطلب منها العمل في منطقة تشبعها (saturation regime)، وهذا يعرقل عملية التعلم القائمة على التدرج للآلية البوابية. نعالج هذه المشكلة من خلال اشتقاق تعديلين متناغمين للآلية البوابية القياسية التي تكون سهلة التنفيذ، ولا تضيف أي معلمات فائقة جديدة (hyperparameters)، وتحسن قابلية التعلم للأبواب عندما تكون قريبة من التشبع. نوضح كيف أن هذه التعديلات مرتبطة بتحسين الآليات البوابية البديلة المقترحة حديثًا مثل التهيئة الزمنية (chrono initialization) وأعضاء الأعصاب المرتبة (Ordered Neurons). عمليًا، تحسن آلياتنا البسيطة للبوابات بشكل ثابت أداء النماذج المتكررة في مجموعة متنوعة من التطبيقات، بما في ذلك مهام الحفظ الصناعي (synthetic memorization tasks)، تصنيف الصور المتسلسل (sequential image classification)، نمذجة اللغة (language modeling)، والتعلم التعزيزي (reinforcement learning)، خاصة عند وجود اعتمادات طويلة الأمد (long-term dependencies).

تحسين آلية البوابة في الشبكات العصبية التكرارية | أحدث الأوراق البحثية | HyperAI