تعلم الاعتمادية طويلة المدى في شبكات RNN باستخدام الخسائر المساعدة

رغم التقدم الحديث في تدريب الشبكات العصبية المتكررة (RNNs)، فإن التقاط الارتباطات طويلة المدى في التسلسلات يظل تحديًا أساسيًا. تعتمد معظم الأساليب على التراجع الخلفي عبر الزمن (BPTT)، وهو صعب التطبيق على التسلسلات جد الطويلة. تقترح هذه الورقة بحثية طريقة بسيطة تحسن قدرة التقاط الارتباطات طويلة المدى في الشبكات العصبية المتكررة من خلال إضافة خسارة مساعدة غير مراقبة إلى الهدف الأصلي. تقوم هذه الخسارة المساعدة بإجبار الشبكات العصبية المتكررة على إعادة بناء الأحداث السابقة أو التنبؤ بالأحداث القادمة في تسلسل، مما يجعل التراجع الخلفي المبتور ممكنًا للتسلسلات الطويلة ويعزز أيضًا BPTT الكامل. نقيم طريقتنا في مجموعة متنوعة من الإعدادات، بما في ذلك تصنيف الصور بكامل دقتها مع أطوال تسلسل تصل إلى 16,000، وتصنيف المستندات الحقيقي. تؤكد نتائجنا الأداء الجيد وكفاءة استخدام الموارد لهذه الطريقة مقارنة بالأساسيات التنافسية، بما في ذلك نماذج متكررة أخرى ونموذج Transformer بحجم مشابه. كشفت التحليلات الإضافية عن آثار مفيدة للخسارة المساعدة على الأمثلة والتنظيم، بالإضافة إلى الحالات القصوى حيث يكون هناك القليل جدًا أو لا يوجد تراجع خلفي على الإطلاق.