VPN: تعلُّم تمثيل موضع الفيديو للأنشطة اليومية

في هذه الورقة، نركّز على الجانب الزماني-المكاني في تمييز أنشطة الحياة اليومية (ADL). تمتلك أنشطة الحياة اليومية خاصيتين محددتين: (أ) أنماط زمانية-مكانية خفية، و(ب) أنماط بصرية مشابهة تتغير مع الزمن. وبالتالي، قد تبدو أنشطة الحياة اليومية متشابهة جدًا، وغالبًا ما تتطلب النظر في التفاصيل الدقيقة لتمييزها. وبما أن الشبكات العصبية التلافيفية الثلاثية الأبعاد الحديثة (3D ConvNets) تكون مفرطة في المرونة لالتقاط الأنماط البصرية الدقيقة عبر الحركة، نقترح شبكة فيديو-موضع جديدة تُسمى VPN. وتتألف VPN من مكوّنين رئيسيين: تضمين مكاني وشبكة انتباه. يُحول التضمين المكاني الأوضاع الثلاثية الأبعاد (3D poses) والمؤشرات اللونية (RGB) إلى فضاء معنوي مشترك، مما يمكّن إطار تمييز الحركات من تعلّم ميزات زمانية-مكانية أفضل باستغلال كلا المودالتين. ولتمييز الحركات المشابهة، توفر شبكة الانتباه وظيفتين: (أ) هيكل أساسي قابل للتعلم من النهاية إلى النهاية يستفيد من البنية الهيكلية للجسم البشري، و(ب) مُربِّط (coupler) يُقدّم أوزان انتباه زمانية-مكانية مشتركة عبر الفيديو. تُظهر التجارب أن VPN تتفوّق على أفضل النتائج المنشورة سابقًا في تصنيف الحركات على مجموعة بيانات كبيرة لأنشطة الإنسان: NTU-RGB+D 120، ونُسختها الأصغر NTU-RGB+D 60، بالإضافة إلى مجموعة بيانات واقعية صعبة: Toyota Smarthome، ونُسخة صغيرة من بيانات التفاعل بين الإنسان والكائن: Northwestern UCLA.