نحو تقدير موثوق وسلس للوضع ثلاثي الأبعاد لعدة أشخاص من مقاطع فيديو أحادية العدسة في البيئة الحقيقية

التقدير ثلاثي الأبعاد للوضعية هو مهمة لا تقدر بثمن في رؤية الحاسوب ولديها تطبيقات عملية متنوعة. بشكل خاص، تقدير الوضعية ثلاثية الأبعاد لعدة أشخاص من فيديو أحادي العدسة (3DMPPE) يعتبر تحديًا كبيرًا وما زال غير مستكشف إلى حد كبير، بعيدًا عن التطبيق في السيناريوهات الحقيقية. نحدد ثلاثة قضايا غير محلولة مع الأساليب الحالية: نقص المتانة في وجهات النظر الغير مشاهدة أثناء التدريب، ضعف المقاومة أمام الإخفاء، والاهتزاز الشديد في النتائج. كحل لهذه المشكلات، نقترح POTR-3D، وهي أول تجسيد لنموذج رفع 2D إلى 3D من نوع sequence-to-sequence لـ 3DMPPE، يتم تشغيله بواسطة استراتيجية جديدة لتضخيم البيانات واعية للهندسة، قادرة على إنتاج بيانات غير محدودة بمجموعة متنوعة من وجهات النظر مع مراعاة مستوى الأرض والإخفاء.من خلال التجارب الواسعة، نؤكد أن النموذج المقترح وتضخيم البيانات يعممان بشكل متين على وجهات النظر المختلفة الغير مشاهدة، يستعيدان وضعيات الجسم بمتانة ضد الإخفاء الشديد، ويولدان نتائج أكثر طبيعية وسلاسة. فعالية نهجنا تم التحقق منها ليس فقط من خلال تحقيق أفضل الأداء الحالي على مقاييس الأداء العامة، ولكن أيضًا من خلال النتائج النوعية على الفيديوهات الأكثر تحديًا في البيئات الطبيعية. يمكن الوصول إلى مقاطع الفيديو التوضيحية عبر الرابط https://www.youtube.com/@potr3d.