(Fusionformer): استغلال التآزر الحركي المشترك من خلال شبكة الدمج المستندة إلى المُحَوِّل لتقدير موضع الإنسان ثلاثي الأبعاد

بالنسبة لمهام تقدير الوضع ثلاثي الأبعاد للإنسان الحالية، تركز مجموعة من الطرق على تعلّم قواعد التصوير من ثنائي الأبعاد إلى ثلاثي الأبعاد من خلال الارتباط المكاني والزمني. ومع ذلك، فإن الطرق السابقة نمذجت السمات العالمية لجميع مفاصل الجسم في المجال الزمني، مع تجاهل مسارات الحركة الخاصة بكل مفصل على حدة. أما العمل الحديث [29]، فيأخذ بعين الاعتبار وجود اختلافات في الحركة بين المفاصل المختلفة، ويتعامل مع العلاقة الزمنية لكل مفصل بشكل منفصل. ومع ذلك، لاحظنا أن المفاصل المختلفة تُظهر أنماط حركة متشابهة في بعض الحركات المحددة. ولهذا السبب، يُقدّم طريقة فوسيونفورمر (Fusionformer) التي تُدخل وحدة مسار ذاتي (self-trajectory module) ووحدة مسار متبادل (mutual-trajectory module) استنادًا إلى الوحدة المكانية-الزمنية (spatio-temporal module). وبعد ذلك، يتم دمج السمات المكانية-الزمنية العالمية مع السمات المحلية الخاصة بمسار المفصل من خلال شبكة خطية تعمل بالتوازي. وللتقليل من تأثير الوضعيات الثنائية الأبعاد غير الدقيقة على التصوير الثلاثي الأبعاد، نُضيف أيضًا شبكة تحسين للوضعية (pose refinement network) لضمان التماسك في النتائج الثلاثية الأبعاد. بالإضافة إلى ذلك، قمنا بتقييم الطريقة المقترحة على مجموعتي بيانات معياريتين (Human3.6M، MPI-INF-3DHP). وعند مقارنة الطريقة المقترحة مع الطريقة الأساسية (PoseFormer)، أظهرت النتائج تحسنًا بنسبة 2.4% في مقياس MPJPE و4.3% في مقياس P-MPJPE على مجموعة بيانات Human3.6M.