إعادة النظر في التحكم: شبكات RNN المتعددة الطبقات العميقة التي يمكن تدريبها

نقترح خلية متكررة قابلة للتوسيط (STAR) جديدة للشبكات العصبية المتكررة (RNNs)، والتي تحتوي على عدد أقل من المعلمات مقارنة بالخلايا المستخدمة على نطاق واسع مثل LSTM وGRU، مع كونها أكثر مقاومة لانحسار أو تضخم التدرجات. يعاني توسيط الوحدات المتكررة في هياكل عميقة من حددين رئيسيين: (i) العديد من الخلايا المتكررة (مثل LSTM) تكون باهظة الثمن من حيث المعلمات والموارد الحسابية؛ و(ii) الشبكات العصبية المتكررة العميقة معرضة بشكل كبير لانحسار أو تضخم التدرجات أثناء التدريب. ندرس تدريب الشبكات العصبية المتكررة متعددة الطبقات ونفحص حجم التدرجات أثناء انتشارها عبر الشبكة في الاتجاه "العمودي". نوضح أن، اعتمادًا على هيكل الخلية المتكررة الأساسية، يتم تقليل أو زيادة التدرجات بشكل نظامي. بناءً على تحليلنا، صممنا نوعًا جديدًا من الخلايا ذات الأبواب التي تحافظ بشكل أفضل على حجم التدرج. نؤكد تصميمنا على عدد كبير من مهام نمذجة السلاسل الزمنية ونثبت أن الخلية المقترحة STAR تسمح ببناء وتدريب هياكل متكررة أعمق، مما يؤدي في النهاية إلى تحسن الأداء مع كونها أكثر كفاءة من الناحية الحسابية.