PONet: تقدير موضع الإنسان ثلاثي الأبعاد المقاوم من خلال تعلم الاتجاهات فقط

تعتمد تقنية التقدير التقليدي لوضع الإنسان ثلاثي الأبعاد أولاً على اكتشاف نقاط المفاصل ثنائية الأبعاد، ثم حل مشكلة التوافقيات بين الأبعاد الثنائية والثلاثية. وعلى الرغم من النتائج الواعدة، فإن هذا النموذج التعلمي يعتمد بشكل كبير على جودة كاشف نقاط المفاصل ثنائية الأبعاد، وهو ما يجعله بالضرورة هشًا أمام الظلال والانقطاعات خارج حدود الصورة. في هذا البحث، نقترح شبكة جديدة تُسمى "Pose Orientation Net" (PONet) قادرة على تقدير الوضع ثلاثي الأبعاد بشكل موثوق من خلال تعلّم الاتجاهات فقط، وبالتالي تجاوز الكاشف الخاطئ لنقاط المفاصل في حالات عدم توفر أدلة صورية. بالنسبة للصور التي تكون فيها أطراف جزئيًا غير مرئية، تقوم PONet بتحديث الاتجاه ثلاثي الأبعاد لهذه الأطراف باستغلال الأدلة المحلية في الصورة لإعادة بناء الوضع ثلاثي الأبعاد. علاوة على ذلك، تمتلك PONet القدرة على استنتاج الوضع ثلاثي الأبعاد الكامل حتى من الصور التي تكون فيها الأطراف كلها غير مرئية، وذلك من خلال استغلال الارتباط بين الاتجاهات في الأطراف المرئية لتعويض القيم المقدرة، مما يعزز بشكل كبير موثوقية تقدير الوضع ثلاثي الأبعاد. قمنا بتقييم طريقة عملنا على عدة مجموعات بيانات، تشمل Human3.6M وMPII وMPI-INF-3DHP و3DPW. حققت طريقة عملنا نتائج مماثلة للتقنيات الرائدة في البيئات المثالية، ولكنها تقلل بشكل كبير من الاعتماد على كاشفات نقاط المفاصل والعبء الحسابي المصاحب لها. وفي السيناريوهات الصعبة جدًا، مثل التقطيع أو الحذف الجزئي، تُظهر طريقة العمل لدينا أداءً موثوقًا للغاية، وتتفوق بشكل كبير على التقنيات الحالية، مما يدل على إمكاناتها الكبيرة في التطبيقات الواقعية.