الشبكات المتكررة الزمنية لاكتشاف الأفعال في الوقت الفعلي

معظم الأبحاث المتعلقة بكشف الأحداث الزمنية تُصاغ كمشكلة غير متزامنة، حيث يتم تحديد أوقات بداية ونهاية الأحداث بعد مشاهدة الفيديو بالكامل. ومع ذلك، فإن التطبيقات الزمنية الحقيقية المهمة مثل أنظمة المراقبة ومساعدة السائقين تتطلب تحديد الأحداث بمجرد وصول كل إطار فيديو، بناءً على الملاحظات الحالية والتاريخية فقط. في هذا البحث، نقترح إطارًا جديدًا يُسمى الشبكة المتكررة الزمنية (Temporal Recurrent Network - TRN)، لنمذجة سياق زمني أوسع لإطار الفيديو من خلال إجراء كشف الأحداث بشكل متزامن وتوقع المستقبل القريب. في كل لحظة زمنية، يستخدم نهجنا أدلة تاريخية مجمعة ومعلومات مستقبلية متوقعة لتحسين التعرف على الحدث الجاري، ويدمج هذين العنصرين في هيكل موحد من النهاية إلى النهاية. قمنا بتقييم نهجنا على مجموعتين شهيرتين لكشف الأحداث الزمنية المتزامنة، وهما HDD وTVSeries، بالإضافة إلى مجموعة بيانات أخرى تُستخدم على نطاق واسع وهي THUMOS'14. تظهر النتائج أن TRN تتفوق بشكل كبير على أفضل التقنيات الموجودة حاليًا.