HyperAIHyperAI
منذ 2 أشهر

تقدير الوضع ثلاثي الأبعاد للإنسان من خلال الكاميرا أحادية العدسة بوساطة رفع البعد المتدرج

Zhang, Changgong ; Zhan, Fangneng ; Chang, Yuan
تقدير الوضع ثلاثي الأبعاد للإنسان من خلال الكاميرا أحادية العدسة بوساطة رفع البعد المتدرج
الملخص

تقدير الوضع ثلاثي الأبعاد من صورة واحدة هو مشكلة صعبة بسبب الغموض في العمق. من بين الأساليب السابقة، هناك نوع يرفع المفاصل ثنائية الأبعاد، التي يتم الحصول عليها باستخدام كاشفات الوضع ثنائية الأبعاد الخارجية، إلى الفضاء ثلاثي الأبعاد. ومع ذلك، فإن هذا النوع من الأساليب يتخلص من المعلومات السياقية للصور التي تعد مؤشرات قوية لتقدير الوضع ثلاثي الأبعاد. في الوقت نفسه، توجد بعض الأساليب الأخرى التي تتوقع المفاصل مباشرة من الصور أحادية العدسة ولكنها تعتمد على تمثيل الإخراج 2.5D $P^{2.5D} = (u,v,z^{r})$ حيث أن كلًا من $u$ و$v$ يكونان في فضاء الصورة بينما $z^{r}$ يكون في الفضاء ثلاثي الأبعاد النسبي للجذر. وبالتالي، يتم استخدام معلومات الحقيقة الأرضية (مثل عمق مفصل الجذر بالنسبة للكاميرا) غالبًا لتحويل الإخراج 2.5D إلى الفضاء ثلاثي الأبعاد، مما يحد من قابلية التطبيق في الممارسة العملية. في هذا العمل، نقترح إطارًا جديدًا من النهاية إلى النهاية لا يستغل فقط المعلومات السياقية بل ينتج أيضًا الإخراج مباشرة في الفضاء ثلاثي الأبعاد عبر رفع البعد المتتابع (cascaded dimension-lifting). بصفة خاصة، نفكك مهمة رفع الوضع من فضاء الصورة ثنائية الأبعاد إلى الفضاء المكاني ثلاثي الأبعاد إلى عدة مهام متتابعة هي: 1) تقدير الهياكل الحركية والمفاصل الفردية في فضاء الصورة ثنائي الأبعاد، 2) تقدير العمق النسبي للجذر، و3) الرفع إلى الفضاء ثلاثي الأبعاد، حيث يقوم كل منها باستخدام إشراف مباشر وميزات الصورة السياقية لتوجيه عملية التعلم. تظهر التجارب الواسعة أن الإطار المقترح حقق أداءً يتفوق على أفضل ما سبقه في اثنين من مجموعات البيانات الشائعة لتقدير الوضع البشري ثلاثي الأبعاد (Human3.6M, MuPoTS-3D).