الشبكات المتداخلة المزدوجة للرسم البياني لتقدير وضع الإنسان ثلاثي الأبعاد

في هذه الورقة، نقترح معمارية جديدة لشبكة الت convolution الرسومية، تُعرف بـ "شبكات الساعة الرملية المكدسة الرسومية" (Graph Stacked Hourglass Networks)، لمهام تقدير وضعية الإنسان ثلاثية الأبعاد من صور ثنائية الأبعاد. تتكوّن المعمارية المقترحة من تكرار لبنية المشغل-المنقّح (encoder-decoder)، حيث يتم معالجة السمات ذات البنية الرسومية عبر ثلاث مقياس مختلف لتمثيل الهيكل العظمي للإنسان. تتيح هذه البنية متعددة المقاييس للنموذج تعلّم تمثيلات سمات محلية وعامة، وهي عناصر حاسمة لتقدير وضعية الإنسان ثلاثية الأبعاد. كما نقدّم أيضًا منهجية لتعلم السمات متعددة المستويات باستخدام سمات وسيطة بعمق مختلف، ونُظهر التحسينات في الأداء الناتجة عن استغلال تمثيلات سمات متعددة المقاييس ومتعددة المستويات. أُجريت تجارب واسعة لتقييم منهجنا، وأظهرت النتائج أن نموذجنا يتفوّق على أحدث التقنيات الحالية.