تعلم التعلم الذاتي لموقف الإنسان ثلاثي الأبعاد باستخدام الهندسة متعددة الآراء

تتطلب تدريب مُقدِّرات الوضع البشري ثلاثية الأبعاد بدقة كبيرة كمية كبيرة من البيانات الحقيقية ثلاثية الأبعاد، والتي تكون باهظة الثمن للجمع. بسبب نقص البيانات ثلاثية الأبعاد، تم اقتراح العديد من طرق تقدير الوضع الضعيفة أو ذات الرقابة الذاتية. ومع ذلك، فإن هذه الطرق بحاجة إما إلى رقابة إضافية في أشكال مختلفة (مثل بيانات حقيقية ثلاثية الأبعاد غير مترابطة، مجموعة صغيرة من العلامات) أو إلى معلمات الكاميرا في الإعدادات متعددة المناظر. لحل هذه المشكلات، نقدم EpipolarPose، وهي طريقة تعلم ذاتي لتقدير وضع الإنسان ثلاثي الأبعاد لا تحتاج إلى أي بيانات حقيقية ثلاثية الأبعاد أو خصائص الكاميرا الخارجية. خلال التدريب، تقوم EpipolarPose بتقدير الوضعيات ثنائية الأبعاد من صور متعددة المناظر، ثم تستفيد من الهندسة الأسقفية (epipolar geometry) للحصول على وضع ثلاثي الأبعاد وهندسة الكاميرا التي يتم استخدامها بعد ذلك لتدريب مُقدِّر الوضع الثلاثي الأبعاد. نثبت فعالية نهجنا على مجموعات بيانات المعايير القياسية مثل Human3.6M و MPI-INF-3DHP حيث نحدد الحالة الجديدة الأكثر تقدماً بين الطرق الضعيفة/ذات الرقابة الذاتية. بالإضافة إلى ذلك، نقترح قياسًا جديدًا للأداء يُسمَّى درجة بنية الوضع (Pose Structure Score - PSS)، وهو قياس ثابت بالنسبة للمقياس ويعرف بالبنية لتقييم جدوى بنية وضع معين بالنسبة لمثيله الحقيقي. يمكن الحصول على الشفرة والنموذج المُدرَّب مسبقًا من https://github.com/mkocabas/EpipolarPose