Command Palette
Search for a command to run...
تعلم قواعد الوضع لتقدير الوضع ثلاثي الأبعاد من صورة واحدة
تعلم قواعد الوضع لتقدير الوضع ثلاثي الأبعاد من صورة واحدة
Song-Chun Zhu Yuanlu Xu Wenguan Wang Jianwen Xie Xiaobai Liu
الملخص
في هذه الورقة، نقترح مُعاملةً لغوية للوضع (pose grammar) للتعامل مع مشكلة تقدير وضعية الإنسان الثلاثية الأبعاد من صورة RGB أحادية (monocular). يأخذ نموذجنا الوضعية الثنائية الأبعاد المقدرة كمدخل، ويدرّس دالة خريطة عامة ثنائية الأبعاد إلى ثلاثية الأبعاد لاستخلاص الوضعية الثلاثية الأبعاد. يتكون النموذج المقترح من شبكة أساسية تقوم بجمع ميزات مُتماشية مع الوضعية بشكل فعّال، بالإضافة إلى سلسلة من الشبكات العصبية التكرارية ثنائية الاتجاه (BRNNs) المُصنّفة هرميًا على القمة، والتي تُدمج بشكل صريح مجموعة من المعرفة المتعلقة بتكوين جسم الإنسان (مثل الديناميكا الحركية، التماثل، التنسيق الحركي). وبهذا، يفرض النموذج قيودًا عالية المستوى على الوضعيات البشرية. وفي عملية التعلّم، نطوّر خوارزمية تضخيم البيانات لتحسين مرونة النموذج أمام التغيرات في المظهر وقدرته على التعميم عبر الرؤى المختلفة. وقد قمنا بتحقق من أداء طريقة العمل لدينا على معايير مفتوحة لتقدير الوضعية ثلاثية الأبعاد للإنسان، واقترحنا بروتوكول تقييم جديد يعمل في بيئة التعميم عبر الرؤى المختلفة للتحقق من قدرة الطرق المختلفة على التعميم. ولاحظنا تجريبيًا أن معظم الطرق الرائدة في المجال تواجه صعوبات كبيرة في هذه البيئة، بينما يمكن لطريقة العمل المقترحة التعامل بشكل جيد مع هذه التحديات.