شبكة متعددة متسلسلة عميقة لتقدير وضعية الإنسان

يُعدّ تقدير وضعية الإنسان عبر عدة إطارات في ظروف معقدة تحديًا كبيرًا. وعلى الرغم من النتائج المتميزة التي أظهرتها أحدث نماذج كشف المفاصل البشرية في الصور الثابتة، فإن أداؤها يتأثر سلبًا عند تطبيقها على تسلسلات الفيديو. ومن أبرز العيوب الشائعة: فشل النماذج في التعامل مع الضبابية الناتجة عن الحركة، أو عدم وضوح الصورة (التشويش البصري)، أو التغطية الجزئية للوضعية، وهي مشكلات تنشأ عن عدم قدرة النماذج على التقاط الاعتماد الزمني بين الإطارات المختلفة. من ناحية أخرى، يؤدي استخدام الشبكات العصبية التكرارية التقليدية مباشرة إلى صعوبات تجريبية في نمذجة السياقات المكانية، خاصة عند التعامل مع حالات التغطية الجزئية للوضعية. في هذه الورقة، نقترح إطارًا جديدًا لتقدير وضعية الإنسان عبر عدة إطارات، يعتمد على استغلال الملامح الزمنية الغنية بين إطارات الفيديو لتحسين كشف النقاط المميزة. ويتكوّن الإطار من ثلاث مكونات منفصلة: يُشفّر مُدمج الوضعية الزمنية (Pose Temporal Merger) السياق المكاني-الزمني للنقاط المميزة لإنشاء نطاقات بحث فعّالة، بينما يقوم وحدة دمج البقايا الوضعية (Pose Residual Fusion) بحساب البقايا الوضعية الموزونة في اتجاهين متعاكسين. ثم تُعالج هذه المخرجات عبر شبكة تصحيح الوضعية (Pose Correction Network) لتحسين كفاءة تحسين تقديرات الوضعية. وقد حصلت طريقةنا على المرتبة الأولى في مسابقة تقدير وضعية الشخص عبر عدة إطارات على مجموعتي البيانات الكبيرة النموذجية PoseTrack2017 وPoseTrack2018. وقد أطلقنا رمز البرنامج (code) الخاص بنا، آملين أن يُلهم هذا المجهود الأبحاث المستقبلية.