DVANet: فصل خصائص الرؤية والحركة للاعتراف بالحركات متعددة الزوايا

في هذا العمل، نقدم منهجًا جديدًا لتمييز الأنشطة متعددة الآراء حيث نوجه التمثيلات المُتعلمة للأنشطة لتكون منفصلة عن المعلومات ذات الصلة بالرأي في الفيديو. عند محاولة تصنيف حالات الأنشطة التي تم التقاطها من عدة زوايا رؤية، تزداد درجة الصعوبة بسبب الاختلاف في الخلفية والاخفاء ووضوح النشاط المُلتقط من زوايا الكاميرا المختلفة. لمعالجة المشكلات المختلفة التي تنشأ في تمييز الأنشطة متعددة الآراء، نقترح تكوينًا جديدًا للطلبات القابلة للتعلم في محول الفك (Transformer Decoder)، إلى جانب خسارة تباينية مراقبة (Supervised Contrastive Loss) اثنين، لتعزيز تعلم خصائص النشاط التي تكون مقاومة للتغيرات في الزوايا. يجري تعلم الخصائص المنفصل لدينا في مرحلتين: يستخدم محول الفك طلبات منفصلة لتعلم المعلومات المتعلقة بالنشاط والمعلومات المتعلقة بالرأي بشكل مستقل، والتي يتم فصلها بشكل أكبر باستخدام خساراتنا التباينية الثنائية. نظهر أن نموذجنا وطريقة التدريب الخاصة بنا يتفوقان بشكل كبير على جميع النماذج أحادية الوسيط على أربع قواعد بيانات لتمييز الأنشطة متعددة الآراء: NTU RGB+D، NTU RGB+D 120، PKU-MMD، وN-UCLA. مقارنةً بالأعمال السابقة المتعلقة بـRGB، نلاحظ تحسينات قصوى بنسبة 1.5٪، 4.8٪، 2.2٪، و4.8٪ على كل قاعدة بيانات على حدة.