نمذجة العلاقة المكانية-الزمنية للتعرف على الإجراءات بعينة قليلة

نُقدِّم إطارًا جديدًا للتمييز عن الحركات القليلة الاستخدام (few-shot action recognition)، يُسمَّى STRM، الذي يُحسِّن تميُّز الميزات المحددة للصف (class-specific feature discriminability) مع التعلُّم في آنٍ واحد لتمثيلات زمنية من الدرجة العليا (higher-order temporal representations). يتركز نهجنا على وحدة جديدة لتعزيز الفضاء الزمني (spatio-temporal enrichment module)، تُجمِّع السياقات المكانية والزمنية من خلال وحدتين فرعيتين مخصصتين: وحدة تُعَزِّز الميزات على مستوى الحُقَل المحلية (local patch-level) ووحدة تُعَزِّز الميزات على مستوى الإطارات العالمية (global frame-level). تُسجِّل الوحدة على مستوى الحُقَل المحلية الخصائص القائمة على المظهر للحركات، في حين أن الوحدة على مستوى الإطارات العالمية تُشفِّر بشكل صريح السياق الزمني الواسع، مما يُمكِّن من التقاط الميزات المرتبطة بالكائنات عبر الزمن. ثم تُستخدم التمثيلات المُعزَّزة فضائيًا وزمنيًا الناتجة لتعلُّم التوافق العلاقة (relational matching) بين تسلسلات الحركة الاستقصائية (query) وسلسلة الدعم (support). بالإضافة إلى ذلك، نُقدِّم فئة تصنيف تُقيِّم تشابه الاستقصاء مع الفئة على ميزات مُعزَّزة على مستوى الحُقَل، بهدف تعزيز تميُّز الميزات المحددة للصف من خلال تقوية عملية تعلُّم الميزات في المراحل المختلفة داخل الإطار المقترح. أجرينا تجارب على أربع معايير لتمييز الحركات القليلة الاستخدام: Kinetics وSSv2 وHMDB51 وUCF101. تُظهر دراستنا التفصيلية (ablation study) المُعمَّقة فوائد المساهمات المقترحة. علاوةً على ذلك، يُحقِّق نهجنا حالة جديدة من التقدُّم (state-of-the-art) على جميع المعايير الأربعة. وفي المعيار الصعب SSv2، يحقِّق نهجنا مكسبًا مطلقًا بنسبة 3.5% في دقة التصنيف مقارنةً بأفضل طريقة موجودة في الأدبيات. يمكن الوصول إلى الكود والنمذجة الخاصة بنا من خلال الرابط: https://github.com/Anirudh257/strm.