المتحول المائل الهندسي لاستعادة الوضعية البشرية ثلاثية الأبعاد بطرق متعددة للرؤية بشكل قوي

نناول التحديات المتعلقة بتقدير الأوضاع البشرية ثلاثية الأبعاد من عدة وجهات نظر في ظل وجود عوائق وبوجود زوايا رؤية محدودة ومتشابكة. نعالج مشكلة إعادة بناء الوضع البشري ثلاثي الأبعاد لشخص واحد من عدة زوايا كمشكلة تنبؤ (regression)، ونقترح هندسة جديدة لمُحوِّل المُشفِّر-المُفكِّك (encoder-decoder Transformer) لتقدير الأوضاع الثلاثية الأبعاد من سلاسل الأوضاع الثنائية الأبعاد المتعددة الزوايا. يقوم المُشفِّر بتحسين مفاصل الهيكل العظمي ثنائية الأبعاد التي تم اكتشافها عبر زوايا الرؤية المختلفة والأوقات، من خلال دمج المعلومات المتعددة الزوايا والمعلومات الزمنية عبر الانتباه الذاتي الشامل (global self-attention). نعزز المُشفِّر بإدخال آلية انتباه متحيزة هندسياً (geometry-biased attention mechanism)، مما يتيح لنا الاستفادة بشكل فعال من العلاقات الهندسية بين الزوايا. بالإضافة إلى ذلك، نستخدم درجات الاكتشاف التي توفرها أداة الكشف عن الوضع ثنائي الأبعاد لتعزيز انتباه المُشفِّر بناءً على موثوقية الاكتشافات ثنائية الأبعاد. ثم يقوم المُفكِّك بالتنبؤ بسلسلة الوضع ثلاثي الأبعاد من هذه الرموز المعالجة، باستخدام استعلامات محددة مسبقاً لكل مفصل. لتعزيز قابلية تعميم طريقتنا على المشاهد غير المعروفة وتحسين مقاومتها للأجزاء المفقودة، نقوم بتنفيذ استراتيجيات مثل تمركز المشهد، والزوايا الصناعية، وإسقاط الرموز. نجري تجارب واسعة النطاق على ثلاثة مجموعات بيانات عامة معتمدة هي Human3.6M وCMU Panoptic وOcclusion-Persons. تظهر نتائجنا فعالية طريقتنا، خاصة في المشاهد المحجوبة وفي حال توفر عدد قليل من الزوايا، وهي سيناريوهات تقليدياً صعبة بالنسبة للطرق القائمة على التثليث (triangulation-based methods).