إيدتيك 3D LSTM: نموذج للتنبؤ بالفيديو وما بعده

التعلم التنبؤي المكاني-الزمني، رغم اعتباره منذ فترة طويلة طريقة واعدة للتعلم التلقائي للسمات، نادرًا ما يُظهر فعاليته خارج نطاق توقع الفيديو المستقبلي. والسبب في ذلك يكمن في صعوبة تعلّم تمثيلات جيدة لكل من الاعتماد على الإطارات قصيرة المدى والعلاقات عالية المستوى على المدى الطويل. نقدم نموذجًا جديدًا يُدعى LSTM ثلاثي الأبعاد الإيدتيكي (E3D-LSTM)، الذي يدمج التحويلات ثلاثية الأبعاد (3D Convolutions) داخل الشبكات العصبية التكرارية (RNNs). تجعل الوحدات الثلاثية الأبعاد المدمجة في النموذج الوحدات المحلية للـ RNNs حساسة للحركة، وتمكّن خلية الذاكرة من تخزين ميزات قصيرة المدى بشكل أفضل. أما بالنسبة للعلاقات الطويلة المدى، فيُمكن للحالة الحالية للذاكرة التفاعل مع سجلاتها السابقة من خلال وحدة انتباه ذاتية مُتحكم بها ببوابة. ونُسمّي هذه آلية انتقال الذاكرة "إيدتيكيّة" لأنها قادرة على استرجاع الذاكرة المُخزّنة بكفاءة عبر علامات زمنية متعددة، حتى بعد فترات طويلة من التشويش. أولاً، قمنا بتقييم شبكة E3D-LSTM على مجموعات بيانات شائعة لتنبؤ الفيديو المستقبلي، وحققنا أداءً متقدمًا على مستوى الحد الأقصى في المجال. ثم أظهرنا أن شبكة E3D-LSTM تُظهر أيضًا أداءً متميزًا في مهام التعرف المبكر على الأنشطة، وذلك لاستنتاج ما يحدث أو ما سيحدث بعد ملاحظة عدد محدود من الإطارات في الفيديو. وتتماشى هذه المهمة جيدًا مع توقع الفيديو، نظرًا لأن نوايا الأفعال والاتجاهات تُعد عوامل حاسمة لتحقيق الأداء المتميز.