MotionAGFormer: تحسين تقدير وضعية الجسم البشري ثلاثي الأبعاد باستخدام شبكة Transformer-GCNFormer

الطرق الحديثة القائمة على المتحولات (Transformers) أظهرت أداءً ممتازًا في تقدير الوضع البشري ثلاثي الأبعاد. ومع ذلك، فإنها تتمتع بنظرة شاملة وتقوم بتشفير العلاقات العالمية بين جميع المفاصل، مما يجعلها غير قادرة على التقاط الاعتمادات المحلية بدقة. في هذا البحث، نقدم كتلة انتباه جديدة تسمى Attention-GCNFormer (AGFormer) تقوم بقسمة عدد القنوات باستخدام مسارين متوازيين للمتحولات و GCNFormer. يُستغل الوحدة المقترحة GCNFormer لاستكشاف العلاقة المحلية بين المفاصل المجاورة، مما ينتج عنه تمثيل جديد مكمل للإخراج الناتج عن المتحولات. من خلال دمج هذين التمثيلين بطريقة متكيفة، يظهر AGFormer قدرته على تعلم الهيكل الثلاثي الأبعاد الكامن بشكل أفضل. من خلال تراكيب العديد من كتل AGFormer، نقترح MotionAGFormer في أربع نسخ مختلفة يمكن اختيارها بناءً على التوازن بين السرعة والدقة. قدمنا تقييمًا لنموذجنا على مجموعتين شهيرتين من البيانات المرجعية: Human3.6M و MPI-INF-3DHP. حققت MotionAGFormer-B نتائجًا رائدة في مجالها، مع أخطاء P1 بلغت 38.4 ملم و 16.2 ملم على التوالي. وبشكل ملفت للنظر، يستخدم ثلث الربع فقط من المعاملات ويكون أكثر كفاءة حسابيًا بمقدار ثلاثة أضعاف من النموذج الرائد السابق على مجموعة بيانات Human3.6M. يمكن الحصول على الشفرة والنماذج من https://github.com/TaatiTeam/MotionAGFormer.请注意,"P1 errors" 是一个特定的技术指标,这里直接翻译为 "أخطاء P1"。如果有更常用的阿拉伯语术语,请根据实际情况进行调整。