ماذا تتوقع؟ التنبؤ بالأفعال الذاتية المركزية باستخدام LSTM المتدحرجة والانتباه متعدد الوسائط

يتكون التنبؤ بالعملية المتمحورة حول الذات من فهم الأشياء التي سيتفاعل معها مرتدي الكاميرا في المستقبل القريب والعمليات التي سينفذها. نعالج هذه المشكلة بمقترح هندسة قادرة على التنبؤ بالعمليات على مقياس زمني متعدد باستخدام LSTMين لـ 1) تلخيص الماضي، و2) صياغة توقعات عن المستقبل. يتم معالجة الفيديو الدخيلي بمراعاة ثلاثة أوضاع مكملة: الشكل (RGB)، الحركة (التدفق البصري) والأجسام (خصائص الجسم). يتم دمج التوقعات الخاصة بكل وضع باستخدام آلية انتباه جديدة للأوضاع (MATT) تتعلم كيفية وزن الأوضاع بطريقة تكيفية. أظهرت التقييمات الواسعة على مجموعتي بيانات مرجعيتين كبيرتين أن طريقتنا تتفوق على الأعمال السابقة بنسبة تصل إلى +7٪ في مجموعة البيانات EPIC-Kitchens الصعبة التي تتضمن أكثر من 2500 عملية، وتعمم إلى EGTEA Gaze+. كما أظهرت طرقتنا قدرتها على التعميم إلى مهمتي التعرف المبكر على العملية والتعرف على العملية. تحتل طريقتنا المرتبة الأولى في قائمة القيادة العامة لتحدي التنبؤ بالعملية المتمحورة حول الذات في EPIC-Kitchens لعام 2019. يرجى الرجوع إلى صفحات الويب الخاصة بنا للمزيد من التعليمات البرمجية والأمثلة:http://iplab.dmi.unict.it/rulstm - https://github.com/fpv-iplab/rulstm.