VPN++: إعادة التفكير في تضمينات الفيديو-الوضع لفهم أنشطة الحياة اليومية

تم بذل العديد من المحاولات لدمج الصور الملونة (RGB) مع الموضع ثلاثي الأبعاد (3D Poses) في تمييز أنشطة الحياة اليومية (ADL). وقد تبدو أنشطة الحياة اليومية متشابهة إلى حد كبير، وغالبًا ما تتطلب نمذجة تفاصيل دقيقة لتمييزها. وبما أن الشبكات العصبية التلافيفية ثلاثية الأبعاد (3D ConvNets) حاليةً غير مرنة بما يكفي لالتقاط الأنماط البصرية الدقيقة عبر الحركات، فإن هذا الاتجاه البحثي يُهيمن عليه الطرق التي تدمج بين صور RGB والموضع ثلاثي الأبعاد. لكن تكلفة حساب الموضع ثلاثي الأبعاد من تدفق RGB تكون مرتفعة في غياب أجهزة استشعار مناسبة، ما يحد من استخدام الطرق المذكورة أعلاه في التطبيقات الواقعية التي تتطلب تأخيرًا منخفضًا. إذًا، كيف يمكن الاستفادة الأمثل من الموضع ثلاثي الأبعاد في تمييز أنشطة الحياة اليومية؟ وللإجابة على هذا السؤال، نقترح توسيعًا لآلية الانتباه المُوجهة بالموضع: شبكة الفيديو-موضع (VPN)، مستكشفين اتجاهين مختلفين. الأول هو نقل معرفة الموضع إلى صور RGB من خلال تبادل الميزات على مستوى الميزات (feature-level distillation)، والثاني هو محاكاة الانتباه المُوجه بالموضع من خلال تبادل الانتباه على مستوى الانتباه (attention-level distillation). وأخيرًا، تم دمج هذين النهجين في نموذج واحد، وسُمّي بـ VPN++. ونُظهر أن VPN++ ليس فقط فعّالًا، بل يوفر أيضًا تسريعًا كبيرًا ومقاومة عالية للضوضاء في بيانات الموضع. ويتفوّق VPN++، سواء مع أو بدون بيانات الموضع ثلاثي الأبعاد، على النماذج الأساسية الممثلة في أربع مجموعات بيانات عامة. يمكن الوصول إلى الكود عبر الرابط: https://github.com/srijandas07/vpnplusplus.