المحاذاة العابرة للنماذج بدون إشراف لتقدير وضعية ثلاثية الأبعاد لعدة أشخاص

نقدم إطارًا سهل النشر وسريعًا من الأسفل إلى الأعلى لتقدير وضعية الإنسان ثلاثية الأبعاد لعدة أشخاص. نعتمد تمثيلًا عصبيًا جديدًا لوضعية الإنسان ثلاثية الأبعاد لعدة أشخاص يوحّد موقع كل شخص مع تمثيل وضعيته ثلاثية الأبعاد المقابل. يتم تحقيق هذا من خلال تعلم تمثيل وضعية مولّد يضمن التوقعات الواقعية لوضعيات ثلاثية الأبعاد، ويحذف أيضًا عملية تجميع النقاط الرئيسية التي تُستخدم في الطرق السابقة من الأسفل إلى الأعلى. بالإضافة إلى ذلك، نقترح نموذج نشر عملي حيث تكون التعليقات على وضعيات 2D أو 3D متزامنة غير متوفرة. في غياب أي إشراف متزامن، نستفيد من شبكة مجمدة كنموذج معلم تم تدريبه على مهمة مساعدة لتقدير وضعية الإنسان ثنائية الأبعاد لعدة أشخاص. نعتبر التعلم مشكلة تنسيق عبر أنماط مختلفة ونقترح أهداف تدريب لتحقيق فضاء خفي مشترك بين النمطين المختلفين. نهدف إلى تعزيز قدرة النموذج على العمل بفعالية أكبر من الشبكة المعلمة المحدودة من خلال تحسين الخريطة بين الفضاء الخفي والوضعية ثلاثية الأبعاد باستخدام عينات مشاهد ثلاثية الأبعاد متعددة الشخصيات مصنعة اصطناعيًا. لا يقتصر أسلوبنا على التعميم للصور الطبيعية فحسب، بل يحقق أيضًا توازنًا أفضل بين السرعة والأداء مقارنة بالأساليب الرأسية السالفة. كما أن أسلوبنا يحقق أفضل النتائج الحالية في تقدير وضعية الإنسان ثلاثية الأبعاد لعدة أشخاص ضمن مستويات الإشراف الثابتة بين الطرق من الأسفل إلى الأعلى.