الشبكات المُعززة للترميز والفك للتنبؤ بالأفعال (RED): شبكات الترميز والفك المُعززة للتنبؤ بالأفعال

تهدف توقع الأفعال إلى اكتشاف الفعل قبل حدوثه. هناك العديد من التطبيقات الحقيقية في مجال الروبوتات والمراقبة مرتبطة بهذه القدرة التنبؤية. تتعامل الأساليب الحالية مع هذه المشكلة من خلال توقع تمثيلات بصرية للصور المستقبلية أولاً، ثم تصنيف هذه التمثيلات المتوقعة إلى أفعال. ومع ذلك، يعتمد التوقع على تمثيل صورة واحدة من الماضي، مما يتجاهل الاتجاه التاريخي. بالإضافة إلى ذلك، يمكنه فقط توقع وقت مستقبلي ثابت. نقترح استخدام شبكة المُرمِّم-المُفكِّك المعززة (Reinforced Encoder-Decoder - RED) لتوقع الأفعال. تستقبل RED عدة تمثيلات تاريخية كمدخلات وتتعلم كيفية توقع سلسلة من التمثيلات المستقبلية. أحد الجوانب البارزة لـ RED هو اعتماد وحدة تعزييز لتوفير إشراف على مستوى السلسلة؛ يتم تصميم دالة المكافأة لتشجيع النظام على إجراء التنبؤات الصحيحة في أقرب وقت ممكن. قمنا باختبار RED على مجموعات بيانات TVSeries و THUMOS-14 و TV-Human-Interaction لتوقع الأفعال، وقد حققنا أفضل الأداء في جميع المجموعات.