الشبكات المتغيرة الزمنية المُتبقية للتحليل التوقيتي للإجراءات في الفيديوهات

يتعلق هذا البحث بتحليل تقسيم الحركات البشرية عبر الزمن في مقاطع الفيديو. نقدم نموذجًا جديدًا يُعرف بـ "الشبكة المتموجة الزمنية ذات البقايا" (TDRN)، المصممة لتحليل فترات الفيديو على مقاييس زمنية متعددة، بهدف تسمية إطارات الفيديو. تقوم شبكة TDRN بحساب تدفقين زمنيين متوازيين: الأول، تدفق البقايا، الذي يحلل المعلومات الزمنية للفيديو بحلقة زمنية كاملة، والثاني، تدفق التجميع/إعادة التجميع، الذي يلتقط المعلومات الزمنية على المدى الطويل بمقاييس مختلفة. يُسهّل التدفق الأول تقسيم الحركات على المستوى المحلي وعلى نطاق دقيق، بينما يستخدم التدفق الثاني السياق متعدد المقاييس لتحسين دقة تصنيف الإطارات. يتم حساب هذين التدفقين باستخدام مجموعة من الوحدات الزمنية ذات البقايا مع عمليات تقوس متحوّلة (deformable convolutions)، ثم يتم دمجهما باستخدام بقايا زمنية عند الدقة الكاملة للفيديو. أظهرت تقييماتنا على مجموعات بيانات University of Dundee 50 Salads، Georgia Tech Egocentric Activities، وJHU-ISI Gesture and Skill Assessment Working Set أن نموذج TDRN يتفوّق على أحدث النماذج في دقة التقسيم حسب الإطار، ودرجة التحرير للقطع، ودرجة F1 للتطابق بين القطع.