التعرف على الأفعال ذاتيًا باستخدام وصفي اللحظات الإحصائية والفراغ الجزئي

في هذا البحث، نقوم بتطوير مفهوم التعلم الذاتي من خلال استخدام الإطارات RGB كمدخل لتعلم التنبؤ بمفاهيم الأنشطة والوصفاء المساعدة مثل وصفاء الأشياء. يتم تدريب ما يُعرف بالتيارات الوهمية على التنبؤ بالدلائل المساعدة، والتي يتم إدخالها بشكل متزامن إلى طبقات التصنيف، ثم يتم إعادة إنتاجها في مرحلة الاختبار لمساعدة الشبكة. نصمم ونعيد إنتاج وصفين، أحدهما يستخدم أربعة من الكاشفات الشائعة للأجسام المطبقة على مقاطع الفيديو التدريبية، والآخر يستخدم كاشفات البارزة على مستوى الصورة والفيديو. الوصف الأول يشفر درجات التنبؤ بمفاهيم الكاشفات وأصناف ImageNet، ودرجات الثقة، والمواقع المكانية للصناديق الحدودية ومؤشرات الإطارات لالتقاط التوزيع الزماني-المكاني للميزات لكل فيديو. أما الوصف الثاني فيشفر توزيعات الدرجات الزمانية-الزاوية للخرائط البارزة وأنماط الكثافة.مستوحىً من الدالة المميزة للتوزيع الاحتمالي، نقوم باقتناص أربع لحظات إحصائية على الوصفاء الوسيطة المذكورة أعلاه. حيث تتزايد أعداد المعاملات في المتوسط، والتباين، والانحراف الثالث (coskewness)، والانحراف الرابع (cokurtosis) بشكل خطي، وتربيعي، ومكعبي، ورباعي بالنسبة لأبعاد متجهات الميزات. لذلك، نصف مصفوفة التباين باستخدام n' أكبر قيم ذاتية (تُعرف بالمجال الفرعي)، ونقتنص الانحراف الثالث/الرابع بدلاً من الانحراف الثالث المشترك/الرابع المشترك الذي يتطلب تكلفة عالية.قدمنا أفضل النتائج الحالية على خمسة من أشهر مجموعة البيانات مثل Charades وEPIC-Kitchens.