HyperAIHyperAI
منذ 4 أشهر

التوقع الحجمي من الخشن إلى الدقيق لموقف الإنسان ثلاثي الأبعاد من صورة واحدة

Georgios Pavlakos; Xiaowei Zhou; Konstantinos G. Derpanis; Kostas Daniilidis
التوقع الحجمي من الخشن إلى الدقيق لموقف الإنسان ثلاثي الأبعاد من صورة واحدة
الملخص

يتناول هذا البحث التحدي المتمثل في تقدير وضع الإنسان ثلاثي الأبعاد من صورة ملونة واحدة. على الرغم من النجاح العام للنمط التعليمي من البداية إلى النهاية، فإن أفضل الأساليب المستخدمة تعتمد حلًا من خطوتين يتكون من شبكة تلافيفية (ConvNet) لتحديد موقع المفاصل ثنائية الأبعاد وخطوة تحسين لاحقة لاستعادة وضع ثلاثي الأبعاد. في هذا البحث، نحدد تمثيل وضع ثلاثي الأبعاد كمشكلة حاسمة مع الأساليب الحالية للشبكات التلافيفية ونقدم مساهمتين مهمتين لتأكيد قيمة التعليم من البداية إلى النهاية لهذه المهمة. أولاً، نقترح تقسيمًا دقيقًا للم공 الفضائي الثلاثي الأبعاد حول الموضوع ونقوم بتدريب شبكة تلافيفية على التنبؤ باحتمالات كل فوكسل لكل مفصل. هذا يخلق تمثيلًا طبيعيًا لوضع ثلاثي الأبعاد ويحسن الأداء بشكل كبير مقارنة بالتنبؤ المباشر بإحداثيات المفاصل. ثانياً، لتحسين التقديرات الأولية بشكل أكبر، نستخدم نظام تنبؤ من الخشن إلى الدقيق. هذه الخطوة تعالج زيادة البعد الكبيرة وتتيح التكرار والمعالجة المتكررة لميزات الصورة. يتفوق النهج المقترح على جميع الطرق الرائدة في المجال على مقاييس المعايير القياسية، حيث يحقق تخفيضًا نسبيًا في الخطأ بنسبة تزيد عن 30% في المتوسط. بالإضافة إلى ذلك، ندرس استخدام تمثيلنا الحجمي في هندسة ذات صلة تكون أقل كفاءة مقارنة بنهجنا الشامل، ولكن لها أهمية عملية لأنها تمكن التدريب عند عدم توفر صور مع بيانات حقيقية ثلاثية الأبعاد متناظرة، وتسمح لنا بتقديم نتائج مقنعة للصور الطبيعية (in-the-wild).