التعرف على الإجراءات بعينات قليلة باستخدام انتباه غير حساس للترتيب

تركز العديد من نماذج التعلم القائم على عدد قليل من الأمثلة على تمييز الصور. على النقيض من ذلك، نتناول مهمة صعبة هي التعرف على الأفعال من الفيديوهات باستخدام عدد قليل من الأمثلة. نعتمد على معالج C3D لكتل الفيديو الفضائية الزمنية، بهدف التقاط الأنماط القصيرة المدى للأفعال. ثم يتم تجميع هذه الكتل المشفرة باستخدام تجميع مُستقل عن التبديل (permutation-invariant pooling)، مما يجعل منهجنا مقاومًا لتغيرات طول الفعل، والاعتماد الزمني الطويل الناتج عن الأنماط التي يُحتمل ألا تتكرر حتى في مقاطع من نفس الفئة. بعد ذلك، تُدمج التمثيلات المُجمعة في وصفات علاقات بسيطة، والتي تُشفر ما يُعرف بمقاطع الاستعلام (query clips) ومقاطع الدعم (support clips). أخيرًا، تُقدَّم وصفات العلاقات إلى معالج مقارنة بهدف التعلم القائم على التشابه بين مقاطع الاستعلام ومقاطع الدعم. ومن المهم أن نُعدِّل مساهمة الكتل أثناء التجميع باستخدام وحدات انتباه فضائي وزماني، إلى جانب التدريب ذاتي (self-supervision). في المقاطع الطبيعية (من نفس الفئة)، يوجد انزياح في التوزيع الزمني – حيث تختلف مواقع نقاط الحدود الزمنية التمييزية (temporal action hotspots). لذا، نقوم بتبديل كتل مقطع معين، ونُتماشى مناطق الانتباه الناتجة مع مناطق الانتباه المُعاد ترتيبها في مقطع غير مُعدّل، بهدف تدريب آلية الانتباه بحيث تكون مستقلة عن تبديل الكتل (ومن ثم عن نقاط الحدود الطويلة الأمد). يتفوق منهجنا على أفضل النماذج الحالية على مجموعات البيانات HMDB51 وUCF101 وminiMIT.