GLA-GCN: شبكة ت.Convolutional رسمية تكيفية عالمية- محلية لتقدير وضعية الإنسان ثلاثية الأبعاد من الفيديو الأحادي

تم بحث تقدير وضعية الإنسان ثلاثية الأبعاد لعقود، وأسفرت عن نتائج واعدة. من بين الاتجاهات البحثية المثمرة في هذا المجال، يُعدّ "رفع وضعية الإنسان ثلاثية الأبعاد" (3D human pose lifting) أحد المحاور الرئيسية، حيث يتم استخدام كل من بيانات الوضعية المقدرة والبيانات الحقيقية (ground truth) في عملية التدريب. تركز الدراسات الحالية في مجال رفع الوضعية بشكل رئيسي على تحسين أداء الوضعية المقدرة، ولكنها غالبًا ما تُظهر أداءً ضعيفًا عند اختبارها باستخدام بيانات الوضعية الحقيقية. لاحظنا أن أداء الوضعية المقدرة يمكن تحسينه بسهولة من خلال تجهيز بيانات 2D عالية الجودة، مثل تدريب نموذج الوضعية 2D بشكل دقيق أو استخدام كاشفات متقدمة للاستشعار الوضعية 2D. بناءً على ذلك، نركز في هذه الدراسة على تحسين نموذج رفع الوضعية ثلاثية الأبعاد باستخدام بيانات الحقيقة (ground truth) بهدف تعزيز جودة بيانات الوضعية المقدرة المستقبلية. لتحقيق هذا الهدف، نقترح نموذجًا بسيطًا لكنه فعّالًا يُسمى الشبكة التلافيفية الرسومية المتكيفة العالمية-المحليّة (Global-local Adaptive Graph Convolutional Network – GLA-GCN). يتمثل نموذجنا في تمثيل البنية الزمانية-المكانية بشكل عالمي من خلال تمثيل رسومي (Graph Representation)، بينما يستخدم طبقات منفصلة لاسترجاع ميزات المفاصل المحلية لتحسين تقدير الوضعية ثلاثية الأبعاد. لاختبار صحة تصميم النموذج، أجرينا تجارب واسعة على ثلاث مجموعات بيانات معيارية: Human3.6M وHumanEva-I وMPI-INF-3DHP. أظهرت النتائج التجريبية أن نموذج GLA-GCN، عند استخدامه مع بيانات 2D حقيقية، يتفوق بشكل ملحوظ على أحدث الأساليب (بحيث تقلّل الأخطاء بنسبة تصل إلى حوالي 3% و17% و14% على التوالي في مجموعات بيانات Human3.6M وHumanEva-I وMPI-INF-3DHP). رابط GitHub: https://github.com/bruceyo/GLA-GCN.