UniHPE: نحو تقدير وضعية الجسم الموحد عبر التعلم التبايني

في الأوقات الأخيرة، ازداد الاهتمام بتطوير تقنيات فعالة لدمج المعلومات من مصادر متعددة. وهذا يتضمن مواءمة الخصائص المستخرجة من مصادر متنوعة لتمكين التدريب الأكثر كفاءة مع قواعد بيانات أكبر وقيود أكثر صرامة، بالإضافة إلى الاستفادة من الثروة الهائلة من المعلومات المحتوية في كل مصدر. تقدير وضع الإنسان ثنائي الأبعاد (2D HPE) وثلاثي الأبعاد (3D HPE) هما مهمتان حاسمتان في رؤية الحاسوب، ولديهما تطبيقات عديدة في المهام اللاحقة مثل التعرف على الحركات، التفاعل بين الإنسان والحاسوب، تتبع الأجسام وغيرها. ومع ذلك، هناك حالات محدودة تم فيها دراسة العلاقة بين الصورة ووضع الإنسان ثنائي الأبعاد أو ثلاثي الأبعاد باستخدام نموذج تبايني (contrastive paradigm). في هذا البحث، نقترح UniHPE، وهو خط أنابيب موحد لتقدير وضع الإنسان يموّن الخصائص من جميع المصادر الثلاثة، أي تقدير وضع الإنسان ثنائي الأبعاد، تقدير وضع الإنسان ثلاثي الأبعاد القائم على الرفع (lifting-based)، وتقدير وضع الإنسان ثلاثي الأبعاد القائم على الصورة (image-based)، ضمن نفس الخط الأنابيب. لمواءمة أكثر من مصدرين في الوقت نفسه، نقترح خسارة تعلم تباينية جديدة تعتمد على القيم المفردة (singular value based contrastive learning loss)، والتي تحسن بشكل أفضل مواءمة المصادر المختلفة وتزيد من أداء النظام. في تقييمنا، حقق UniHPE مؤشرات أداء ملحوظة: MPJPE $50.5$ ملم على مجموعة بيانات Human3.6M و PAMPJPE $51.6$ ملم على مجموعة بيانات 3DPW. الطريقة المقترحة لدينا تحمل إمكانات كبيرة للتقدم في مجال رؤية الحاسوب والمساهمة في العديد من التطبيقات.