توليد فرضيات متعددة لتقدير وضعية الإنسان ثلاثية الأبعاد باستخدام شبكة كثافة المزيج

تقدير وضع الإنسان ثلاثي الأبعاد من صورة أحادية العدسة أو مفاصل ثنائية الأبعاد هو مشكلة غير محددة بشكل جيد بسبب الغموض في العمق والمفاصل المخفية. نعتقد أن تقدير وضع الإنسان ثلاثي الأبعاد من مدخل أحادي العدسة هو مشكلة عكسية حيث يمكن وجود حلول متعددة ممكنة. في هذا البحث، نقترح طريقة جديدة لتوليد فرضيات متعددة وممكنة لوضع الإنسان ثلاثي الأبعاد من مفاصل ثنائية الأبعاد. على عكس النماذج الحالية للتعلم العميق التي تقلل من خطأ المربعات المتوسطة بناءً على توزيع غاوس أحادي الوضع (unimodal Gaussian distribution)، فإن طريقتنا قادرة على توليد فرضيات متعددة وممكنة لوضع الإنسان ثلاثي الأبعاد بناءً على شبكات كثافة خليط متعددة الوضع (multimodal mixture density networks). تظهر تجاربنا أن الوضعيات الثلاثية الأبعاد التي تم تقديرها بواسطة طريقتنا من مدخل ثنائي الأبعاد تكون متسقة في إعادة الإسقاط الثنائي الأبعاد، مما يدعم حجتنا بأن هناك حلولًا متعددة للمشكلة العكسية ثنائية إلى ثلاثية الأبعاد. بالإضافة إلى ذلك، نظهر أداءً رائدًا في مجموعة بيانات Human3.6M في كل من أفضل الفرضيات وأوضاع الرؤية المتعددة، ونثبت قدرة نموذجنا على التعميم عبر اختباره على مجموعات البيانات MPII و MPI-INF-3DHP. شفرتنا متاحة على موقع المشروع الإلكتروني.