شبكة ت(Convolution) متعددة الرسوم البيانية للتنبؤ بالوضعية

في الآونة الأخيرة، شهدت توقعات حركة الإنسان اهتمامًا متزايدًا، حيث تتمثل المهمة في التنبؤ بالوضعية الجسدية المستقبلية بناءً على تسلسلات الوضعيات المُراقبة. يُعدّ هذا التحدي معقدًا بسبب الحاجة إلى نمذجة العلاقات المكانية والزمنية. وتُستخدم النماذج الأكثر شيوعًا لهذا الغرض هي النماذج ذات الاتجاه الذاتي، مثل الشبكات العصبية التكرارية (RNNs) أو متغيراتها، بالإضافة إلى شبكات Transformer. ومع ذلك، تمتلك RNNs عديدًا من العيوب، مثل تلاشي أو انفجار المشتقات (gradients). وقد حاول باحثون آخرون التغلب على مشكلة التواصل في البُعد المكاني من خلال دمج شبكات الت convolution الرسومية (GCN) مع نماذج الذاكرة طويلة القامة (LSTM). لكن هذه الدراسات تعالج المعلومات الزمنية والمكانيّة بشكل منفصل، مما يحد من فعاليتها. ولحل هذه المشكلة، نقترح منهجية جديدة تُسمى الشبكة متعددة الت convolution الرسومية (MGCN) للتنبؤ بوضعيات الإنسان الثلاثية الأبعاد. تعتمد هذه النموذج على التقاط المعلومات المكانية والزمنية في آن واحد من خلال إدخال رسم بياني مُعزّز لسلسلة الوضعيات. حيث تُمثل عدة إطارات أجزاء متعددة، تُربط معًا في مثال واحد من الرسم البياني. علاوةً على ذلك، نستكشف أيضًا تأثير البنية الطبيعية والانتباه المُراعي للتسلسل على أداء النموذج. وفي تقييمنا التجريبي على مجموعات بيانات معيارية كبيرة مثل Human3.6M وAMSS و3DPW، تفوق نموذج MGCN على أفضل النماذج الحالية في توقع الوضعيات.