نماذج LSTMs الدوارة-المُلتوية للتنبؤ بالإجراءات من مقاطع الفيديو ذات المنظور الأول

في هذه الورقة، نعالج مشكلة توقع الأفعال من منظور ذاتي، أي التنبؤ بالإجراءات التي سيقوم بها حامل الكاميرا في المستقبل القريب، والكائنات التي سيتفاعل معها. وبشكل خاص، نقدم بنية تعلم تُسمى Rolling-Unrolling LSTM، وهي معمارية تهدف إلى توقع الأفعال من مقاطع الفيديو ذاتية الرؤية. تعتمد هذه الطريقة على ثلاث مكونات رئيسية: 1) معمارية تتكون من LSTMين لتمثيل المهام الفرعية لملخص الماضي واستنتاج المستقبل، 2) تقنية تدريب مسبق لاستكمال التسلسل (Sequence Completion Pre-Training) التي تشجع LSTM على التركيز على المهام الفرعية المختلفة، و3) آلية انتباه المودالية (Modality ATTention - MATT) التي تُستخدم لدمج تنبؤات متعددة الوسائط بشكل فعّال، وذلك من خلال معالجة الإطارات الملونة (RGB)، حقول التدفق البصري (optical flow)، وسمات الكائنات. وقد تم التحقق من الأداء الفعّال للنهج المقترح على مجموعات بيانات EPIC-Kitchens، EGTEA Gaze+، وActivityNet. وأظهرت التجارب أن المعمارية المقترحة تُعدّ من أفضل الحلول في مجال مقاطع الفيديو ذاتية الرؤية، حيث حققت أفضل النتائج في مسابقة توقع الأفعال ذاتية الرؤية لعام 2019 ضمن مجموعات بيانات EPIC-Kitchens. كما حققت الأداء التنافسي على مجموعة ActivityNet مقارنة بالأساليب التي لا تعتمد على التدريب المسبق غير المراقب، وتمكّنت من التعميم على مهام التعرف المبكر على الأفعال والتعرف على الأفعال بشكل عام. ولتشجيع الأبحاث في هذا الموضوع الصعب، قمنا بنشر رمز البرمجة، والنموذج المدرب، والسمات المُستخرجة مسبقًا على موقعنا الإلكتروني: http://iplab.dmi.unict.it/rulstm.