HyperAIHyperAI
منذ 7 أيام

العودة إلى التحسين: تقدير وضعية الإنسان ثلاثية الأبعاد بدون تدريب مسبق قائمة على التشتت

Zhongyu Jiang, Zhuoran Zhou, Lei Li, Wenhao Chai, Cheng-Yen Yang, Jenq-Neng Hwang
العودة إلى التحسين: تقدير وضعية الإنسان ثلاثية الأبعاد بدون تدريب مسبق قائمة على التشتت
الملخص

لقد سيطرت الطرق القائمة على التعلم على مهام تقدير وضعية الإنسان ثلاثية الأبعاد (HPE)، حيث أظهرت أداءً أفضل بشكل ملحوظ في معظم المعايير مقارنة بالطرق القائمة على التحسين التقليدية. ومع ذلك، لا يزال تقدير وضعية الإنسان ثلاثية الأبعاد في البيئات الطبيعية (in the wild) يُعد أكبر تحدي أمام النماذج القائمة على التعلم، سواءً باستخدام طرق رفع الـ 2D إلى 3D، أو تحويل الصور إلى 3D، أو الطرق القائمة على التشتت (diffusion)، نظرًا لأن الشبكات المدربة تتعلم ضمنيًا معاملات الكاميرا (parame ters الداخلية) وتوزيعات وضعيات الإنسان ثلاثية الأبعاد حسب المجال، وتُقدّر الوضعيات من خلال المتوسط الإحصائي. من ناحية أخرى، تقدّم الطرق القائمة على التحسين تقديرات حالة بحالة، مما يمكّنها من التنبؤ بوضعيات إنسانية أكثر تنوعًا وتعقيدًا في البيئات الطبيعية. من خلال دمج المزايا المتوفرة في الطرق القائمة على التحسين والطرق القائمة على التعلم، نقترح نموذجًا جديدًا يُسمى \textbf{Ze}ro-shot \textbf{D}iffusion-based \textbf{O}ptimization (\textbf{ZeDO}) لتقدير وضعية الإنسان ثلاثية الأبعاد، بهدف معالجة مشكلة تقدير الوضعية ثلاثية الأبعاد عبر المجالات المختلفة وفي البيئات الطبيعية. يحقق نموذجنا متعدد الفرضيات \textit{\textbf{ZeDO}} أداءً متميزًا (SOTA) على مجموعة بيانات Human3.6M، بقيمة minMPJPE تبلغ 51.4 مم، دون الحاجة إلى تدريب بأي أزواج من الصور 2D-3D أو صور-3D. علاوةً على ذلك، يحقق نموذجنا الأحادي الفرضيات \textit{\textbf{ZeDO}} أداءً متميزًا على مجموعة بيانات 3DPW، بقيمة PA-MPJPE تبلغ 40.3 مم في تقييم عبر المجموعات، ما يجعله يتفوق حتى على الطرق القائمة على التعلم التي تم تدريبها على مجموعة 3DPW.

العودة إلى التحسين: تقدير وضعية الإنسان ثلاثية الأبعاد بدون تدريب مسبق قائمة على التشتت | أحدث الأوراق البحثية | HyperAI