PoTion: تمثيل الوضعية والحركة للتمييز عن الحركات

تعتمد معظم الطرق الحديثة المتطورة لتمييز الحركات على بنية ثنائية التدفق (two-stream architecture) التي تُعالج المظهر والحركة بشكل منفصل. في هذه الورقة، نُقدّم حجة بأن النظر في كليهما معًا يوفر معلومات غنية لتمييز الحركات. نُقدّم تمثيلًا جديدًا يُعبّر بسلاسة عن حركة بعض النقاط الشكلية (semantic keypoints). نستخدم مفاصل الإنسان كهذه النقاط، ونُسمّي تمثيلنا "PoTion" (Pose moTion). وبشكل محدد، نقوم أولًا بتشغيل مُقدّر موضع الإنسان المُتطوّر حاليًا، ونستخرج خرائط الحرارة (heatmaps) الخاصة بمفاصل الإنسان في كل إطار. ثم نحصل على تمثيل PoTion من خلال تجميع هذه الخرائط الاحتمالية عبر الزمن، وذلك عبر تلوين كل خريطة حسب الزمن النسبي للإطار داخل مقاطع الفيديو، ثم جمعها. يُعد هذا التمثيل ذا حجم ثابت لجميع مقاطع الفيديو، مما يجعله مناسبًا لتصنيف الحركات باستخدام شبكة عصبية تلافيفية خفيفة (shallow convolutional neural network). أظهرت تقييماتنا التجريبية أن PoTion يتفوّق على تمثيلات الموضع الأخرى المتطورة حاليًا. علاوةً على ذلك، يُعد مكملًا للتيارات القياسية الخاصة بالمظهر والحركة. عند دمج PoTion مع منهجية I3D ثنائية التدفق الحديثة [5]، نحصل على أداءً من الدرجة الأولى على مجموعات بيانات JHMDB وHMDB وUCF101.