مِينِي رود: إطار عمل RNN حد أدنى للكشف عن الإجراءات في الوقت الفعلي

كشف الكشف عن الحركات عبر الإنترنت (OAD) عن مهمة تحديد الحركات في مقاطع الفيديو المتسلسلة دون الوصول إلى الإطارات المستقبلية. وقد بُذلت جهود كبيرة لالتقاط الاعتماديات الطويلة المدى، حيث حظيت نماذج المحولات (transformers) باهتمام خاص بفضل قدرتها على التقاط الهياكل الزمنية الطويلة المدى. في المقابل، تراجعت الاهتمامات تجاه الشبكات العصبية التكرارية (RNNs) مؤخرًا بسبب أداءها الأقل مقارنة بالطرق الحديثة التي تعتمد على المحولات. في هذه الورقة، نستعرض الأسباب الجذرية وراء الأداء الأضعف للشبكات العصبية التكرارية مقارنة بالخوارزميات القائمة على المحولات. تشير نتائجنا إلى أن الفجوة بين مرحلتي التدريب والاستنتاج تمثل العائق الرئيسي أمام تدريب فعّال للشبكات العصبية التكرارية. ولحل هذه المشكلة، نقترح تطبيق أوزان غير متساوية على دالة الخسارة المحسوبة في كل خطوة زمنية، مما يمكّن نموذج RNN من التعلم من التنبؤات التي تُجرى في بيئة تشبه أكثر مرحلة الاستنتاج. أظهرت تجارب واسعة على ثلاث مجموعات بيانات معيارية، وهي THUMOS وTVSeries وFineAction، أن نموذج RNN بسيط جدًا، تم تدريبه باستخدام المنهجية المقترحة، يحقق أداءً يساوي أو يفوق الأفضلية الحالية مع زيادة كبيرة في الكفاءة. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/jbistanbul/MiniROAD.