الندرة تلتقي بالعمق: تقدير وضع الجسم البشري ثلاثي الأبعاد من الفيديو أحادي العدسة

يتناول هذا البحث التحدي المتمثل في تقدير وضع الجسم البشري ثلاثي الأبعاد من سلسلة صور أحادية العدسة. وفي هذا السياق، يتم النظر في حالتين: (أ) توفر مواقع المفاصل البشرية في الصورة و(ب) عدم معرفة مواقع المفاصل في الصورة. بالنسبة للحالة الأولى، تم تقديم نهج جديد يدمج أولوية هندسية ثلاثية الأبعاد مدفوعة بالندرة والانسيابية الزمنية. أما بالنسبة للحالة الثانية، فقد تم توسيع النهج الأول من خلال معاملة مواقع المفاصل في الصورة كمتغيرات خفية. تم تدريب شبكة عصبية ذات طبقات كاملة الترابط لتنبؤ خرائط الغموض لمواقع المفاصل ثنائية الأبعاد. يتم تحقيق تقديرات الوضع ثلاثي الأبعاد عبر خوارزمية توقع-تعظيم على كامل السلسلة، حيث أظهرت النتائج أن غموض مواقع المفاصل ثنائية الأبعاد يمكن إهماله بسهولة أثناء الاستدلال. تقييم تجريبي على مجموعة بيانات Human3.6M يبين أن النماذج المقترحة تحقق دقة أعلى في تقدير الوضع ثلاثي الأبعاد مقارنة بالأسس الرائدة في المجال. بالإضافة إلى ذلك، فإن النموذج المقترح يتفوق على أساس تقدير الوضع ثنائي الأبعاد المتاح بشكل عام على مجموعة بيانات PennAction الصعبة.请注意,我已将“monocular image sequence”翻译为“صور أحادية العدسة”,这是指单目相机拍摄的一系列图像。同时,“sparsity-driven 3D geometric prior”被翻译为“أولوية هندسية ثلاثية الأبعاد مدفوعة بالندرة”,以保持专业术语的准确性。其他术语也根据阿拉伯语的表达习惯进行了相应的调整。