تعلم الأحداث الضمنية الفرعية في مقاطع الفيديو النشطة باستخدام مرشحات الانتباه الزمني

في هذا البحث، نقدم مفهومًا جديدًا يُعرف بـ "مرشحات الانتباه الزمني" (temporal attention filters)، ونوضح كيفية استخدامها في التعرف على الأنشطة البشرية من الفيديوهات. العديد من الأنشطة ذات المستوى العالي غالبًا ما تتكون من أجزاء زمنية متعددة (مثل، الأحداث الفرعية) التي تختلف في مدتها وسرعتها، وهدفنا هو جعل النموذج يتعلم هذه البنية الزمنية بشكل صريح باستخدام مرشحات انتباه متعددة ويستفيد منها. تم تصميم مرشحاتنا الزمنية لتكون قابلة للاشتقاق بالكامل، مما يسمح بتدريب نهاية إلى نهاية للمرشحات الزمنية مع هياكل الشبكات العصبية التلافيفية القائمة على الإطارات أو المقاطع. يقدم هذا البحث طريقة لتعلم مجموعة من مرشحات الانتباه الزمني الثابتة المثلى والتي يمكن مشاركتها عبر فيديوهات مختلفة، ويوسع هذه الطريقة لضبط مرشحات الانتباه بشكل ديناميكي لكل فيديو اختباري باستخدام شبكات الذاكرة طويلة المدى والقصيرة المدى المتكررة (LSTMs). هذا يتيح لمرشحات الانتباه الزمنية لدينا تعلم الأحداث الفرعية الكامنة الخاصة بكل نشاط. نؤكد تجريبيًا أن المفهوم المقترح لمرشحات الانتباه الزمني يستفيد من التعرف على الأنشطة، ونقوم برسم الخرائط للأحداث الفرعية الكامنة التي تم تعلمها.