تحليل مقارن للتفكير المكاني-الزمني المستند إلى الشبكات العصبية التلافيفية في الفيديوهات

فهم الإجراءات والتعبيرات اليدوية في تدفقات الفيديو يتطلب تفكيرًا زمنيًا في المحتوى المكاني من لحظات زمنية مختلفة، أي نمذجة مكانيّة-زمنيّة (ST). في هذه الورقة الاستقصائية، قمنا بتحليل مقارن لتقنيات النمذجة المكانيّة-الزمنيّة المختلفة المُستخدمة في مهام التعرف على الإجراءات والتعبيرات اليدوية. وبما أن الشبكات العصبية التلافيفية (CNN) أثبتت فعاليتها كأداة استخلاص ميزات للصور الثابتة، نطبق تقنيات النمذجة المكانيّة-الزمنيّة على الميزات المستخرجة من الصور الثابتة في لحظات زمنية مختلفة باستخدام CNN. تم تدريب جميع التقنيات بشكل متكامل (end-to-end) مع جزء استخلاص الميزات باستخدام CNN، وتم تقييمها على مجموعتين بيانات متاحتين للجمهور: مجموعة بيانات Jester ومجموعة بيانات Something-Something. تحتوي مجموعة بيانات Jester على مجموعة متنوعة من التعبيرات اليدوية الديناميكية والثابتة، بينما تحتوي مجموعة بيانات Something-Something على إجراءات تفاعل الإنسان مع الأشياء. يتميّز كلا المجموعتين بكون التصاميم المُصممة تحتاج إلى اكتشاف المحتوى الزمني الكامل للفيديو لتصنيف الإجراءات/التعبيرات بشكل صحيح. وخلافًا للتوقعات، تُظهر النتائج التجريبية أن تقنيات النمذجة المكانيّة-الزمنيّة القائمة على الشبكات العصبية التكرارية (RNN) تُعطي نتائج أضعف مقارنةً بتقنيات أخرى مثل الهياكل التلافيفية الكاملة. يُمكن الوصول إلى الكود النموذجي والنماذج المُدرّبة مسبقًا لهذا العمل بشكل عام.