FinePOSE: التقدير الدقيق للوضعية البشرية ثلاثية الأبعاد القائم على الموجهات التفصيلية عبر نماذج التشتت

يستخدم مُهمّة تقدير وضعية الإنسان ثلاثية الأبعاد (3D HPE) الصور أو مقاطع الفيديو ثنائية الأبعاد للتنبؤ بتنسيق مفاصل الإنسان في الفضاء ثلاثي الأبعاد. وعلى الرغم من التطورات الحديثة في الأساليب القائمة على التعلم العميق، فإنها تهمل بشكل كبير القدرة على دمج النصوص المتاحة والمعرفة الطبيعية الممكنة المتعلقة بالإنسان، مما يؤدي إلى فقدان إشراف ضمني قيم لتحسين مهمة 3D HPE. علاوةً على ذلك، غالبًا ما تُدرس هذه المهمة من منظور الجسم البشري ككل، مع إهمال التوجيه الدقيق المخفي في أجزاء الجسم المختلفة. وللإجابة على هذه الفجوة، نقدّم نموذجًا جديدًا يُسمّى \textbf{FinePOSE}، وهو نموذج مُحسّن لعملية التفتيت (Denoiser) يعتمد على نموذج التشتت (Diffusion Model) ويدفع باتجاه التوجيه الدقيق (Prompt-Driven)، ويتألف من ثلاث كتل أساسية تعزز عملية التراجع في نموذج التشتت: (1) كتلة تعلّم التحفيز المُدرك للجزء الدقيق (FPP)، التي تُنشئ تحفيزات مُدركة للجزء الدقيق من خلال دمج النصوص المتاحة والمعرفة الطبيعية المتعلقة بأجزاء الجسم مع تحفيزات قابلة للتعلم، بهدف نمذجة التوجيه الضمني. (2) كتلة الاتصال بين التحفيز والوضعية الدقيقة (FPC)، التي تُنشئ اتصالات دقيقة بين التحفيزات المُدركة للجزء المُتعلّمة والوضعيات، بهدف تحسين جودة عملية إزالة الضوضاء. (3) كتلة التصنيف الزمني المُوجه بالتحفيز (PTS)، التي تدمج تضمينات التحفيز المُتعلّمة مع المعلومات الزمنية المرتبطة بمستوى الضوضاء، لتمكين التعديل التكيفي في كل خطوة من خطوات إزالة الضوضاء. أظهرت التجارب الواسعة على مجموعات بيانات عامة لتقدير وضعية الإنسان الفردية أن FinePOSE يتفوّق على أحدث الأساليب. كما قمنا بتوسيع نطاق FinePOSE لدعم تقدير وضعية أكثر من إنسان، حيث أظهر أداءً متميزًا بتحقيق متوسط خطأ في موضع المفصل (MPJPE) قدره 34.3 مم على مجموعة بيانات EgoHumans، مما يُظهر إمكانات FinePOSE في التعامل مع السيناريوهات المعقدة التي تتضمن أكثر من إنسان. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024.