LoCATe-GAT: نمذجة السياق المحلي متعدد المقاييس والعلاقات الإجرائية للتعرف على الإجراءات بدون عينات مسبقة
يزداد عدد الأفعال في العالم الحقيقي، مما يجعل من الصعب على النماذج التقليدية القائمة على التعلم العميق التعرف على الأفعال غير المرئية. في الآونة الأخيرة، تم تكييف النماذج البصرية واللغوية المُدرّبة مسبقًا القائمة على الصور (I-VL) لتمكين فهم السياقات "صفرية المعرفة" بكفاءة. وقد أثبت دمج هذه النماذج مع محولات (transformers) لتحقيق نمذجة زمنية فعالة في التعرف على الأفعال بدون تدريب مسبق (ZSAR). ومع ذلك، لا تزال أهمية نمذجة السياق المكاني المحلي للأجسام والبيئة التي تحدث فيها الأفعال غير مستكشفة بشكل كافٍ. في هذا العمل، نقترح إطارًا جديدًا للـ ZSAR يُسمى LoCATe-GAT، يتكون من محول زمني جديد يُدعى LoCATe (Local Context-Aggregating Temporal transformer) وشبكة انتباه رسمية (GAT). بشكل خاص، تُستخدم الترميزات الصورية والنصية المستخرجة من نموذج I-VL المُدرّب مسبقًا كمدخلات لـ LoCATe-GAT. مستوحى من ملاحظة أن السياقات المرتبطة بالكائنات والبيئة تُسهم في التمييز بين الأفعال والتشابه الوظيفي بينها، يُستخدم LoCATe لالتقاط السياق المحلي متعدد المقاييس من خلال طبقات تقوية متعددة المقاييس (dilated convolutional layers) أثناء النمذجة الزمنية. علاوةً على ذلك، تقوم الشبكة المقترحة GAT بنمذجة العلاقات الدلالية بين الفئات، مما يحقق تآزرًا قويًا مع التضمينات الفيديو الناتجة عن LoCATe. أظهرت التجارب الواسعة على أربع معايير شائعة الاستخدام – UCF101، HMDB51، ActivityNet، وKinetics – تحقيقنا لنتائج متفوقة على مستوى الحالة الحالية. وبشكل خاص، حققنا مكاسب نسبية قدرها 3.8% و4.8% على هذه المعايير في بيئات التعرف التقليدية، و16.6% على UCF101 في بيئة ZSAR العامة. بالنسبة للمجموعات الكبيرة مثل ActivityNet وKinetics، حققنا مكاسب نسبية قدرها 31.8% و27.9% على التوالي مقارنة بالأساليب السابقة. بالإضافة إلى ذلك، حصلنا على مكاسب قدرها 25.3% و18.4% على UCF101 وHMDB51 وفقًا لبروتوكول التقييم الأخير "TruZe".