الاستشارة المعمارية لتقدير وضعية الإنسان ثلاثية الأبعاد المستندة إلى البنية مع تحليل الوضعية القائمة على العظام

في هذه الدراسة، نقترح حلًا جديدًا لاستخلاص وضعية الإنسان ثلاثية الأبعاد في الفيديوهات. بدلًا من التنبؤ المباشر بمواقع المفاصل ثلاثية الأبعاد، نستمد إلهامنا من التشريح الهيكلي للإنسان، ونُفكك المهمة إلى تنبؤ باتجاهات العظام وتنبؤ بطول العظام، حيث يمكن استخلاص مواقع المفاصل ثلاثية الأبعاد بشكل كامل من هذين المُخرجين. إن دافعنا هو حقيقة أن أطوال عظام الهيكل العظمي البشري تبقى ثابتة عبر الزمن. وهذا يدفعنا إلى تطوير تقنيات فعّالة لاستخدام المعلومات الشاملة عبر جميع الإطارات في الفيديو، بهدف تحسين دقة تنبؤ طول العظام. علاوةً على ذلك، لشبكة تنبؤ اتجاهات العظام، نقترح معمارية متكاملة بالتحويلات التلافيفية (fully-convolutional propagating architecture) تمتلك روابط طويلة (long skip connections). وبشكل أساسي، تقوم هذه البنية بتنبؤ باتجاهات العظام المختلفة بشكل هرمي، دون استخدام وحدات ذاكرة مكلفة زمنيًا مثل الشبكات العصبية ذات الذاكرة الطويلة (LSTM). كما نُقدّم خسارة جديدة تُسمى "خسارة الانزلاق المشترك" (joint shift loss)، تُستخدم لربط تدريب شبكتي تنبؤ طول العظام واتجاهاتها. وأخيرًا، نستخدم آلية انتباه ضمنية (implicit attention mechanism) لدمج درجات رؤية المفاتيح ثنائية الأبعاد (2D keypoint visibility scores) في النموذج كإرشاد إضافي، مما يقلل بشكل كبير من الغموض في العمق في العديد من الوضعيات الصعبة. يتفوق نموذجنا الكامل على أفضل النتائج السابقة على مجموعتي بيانات Human3.6M وMPI-INF-3DHP، حيث تُثبت التقييمات الشاملة فعالية نموذجنا.