HyperAIHyperAI
منذ 17 أيام

التعرف على الإجراءات بعينات قليلة باستخدام انتباه غير حساس للترتيب

Hongguang Zhang, Li Zhang, Xiaojuan Qi, Hongdong Li, Philip H. S. Torr, Piotr Koniusz
التعرف على الإجراءات بعينات قليلة باستخدام انتباه غير حساس للترتيب
الملخص

تركز العديد من نماذج التعلم القائم على عدد قليل من الأمثلة على تمييز الصور. على النقيض من ذلك، نتناول مهمة صعبة هي التعرف على الأفعال من الفيديوهات باستخدام عدد قليل من الأمثلة. نعتمد على معالج C3D لكتل الفيديو الفضائية الزمنية، بهدف التقاط الأنماط القصيرة المدى للأفعال. ثم يتم تجميع هذه الكتل المشفرة باستخدام تجميع مُستقل عن التبديل (permutation-invariant pooling)، مما يجعل منهجنا مقاومًا لتغيرات طول الفعل، والاعتماد الزمني الطويل الناتج عن الأنماط التي يُحتمل ألا تتكرر حتى في مقاطع من نفس الفئة. بعد ذلك، تُدمج التمثيلات المُجمعة في وصفات علاقات بسيطة، والتي تُشفر ما يُعرف بمقاطع الاستعلام (query clips) ومقاطع الدعم (support clips). أخيرًا، تُقدَّم وصفات العلاقات إلى معالج مقارنة بهدف التعلم القائم على التشابه بين مقاطع الاستعلام ومقاطع الدعم. ومن المهم أن نُعدِّل مساهمة الكتل أثناء التجميع باستخدام وحدات انتباه فضائي وزماني، إلى جانب التدريب ذاتي (self-supervision). في المقاطع الطبيعية (من نفس الفئة)، يوجد انزياح في التوزيع الزمني – حيث تختلف مواقع نقاط الحدود الزمنية التمييزية (temporal action hotspots). لذا، نقوم بتبديل كتل مقطع معين، ونُتماشى مناطق الانتباه الناتجة مع مناطق الانتباه المُعاد ترتيبها في مقطع غير مُعدّل، بهدف تدريب آلية الانتباه بحيث تكون مستقلة عن تبديل الكتل (ومن ثم عن نقاط الحدود الطويلة الأمد). يتفوق منهجنا على أفضل النماذج الحالية على مجموعات البيانات HMDB51 وUCF101 وminiMIT.

التعرف على الإجراءات بعينات قليلة باستخدام انتباه غير حساس للترتيب | أحدث الأوراق البحثية | HyperAI