حصاد الآراء المتعددة لتوثيق وضعية الجسم البشري ثلاثية الأبعاد دون علامات

التطورات الحديثة في شبكات الالتفاف (ConvNets) قد حولت العقد الرئيسي للكثير من مهام رؤية الحاسوب إلى جمع البيانات المصحوبة بالشروح. في هذا البحث، نقدم نهجًا موجهًا بالهندسة لجمع الشروح تلقائيًا لمهمات التنبؤ بوضع الإنسان. بدءًا من شبكة الالتفاف العامة للتنبؤ بوضع الإنسان ثنائي الأبعاد، وبناءً على ترتيب متعدد الزوايا، نصف طريقة آلية لجمع شروح دقيقة للوضع ثلاثي الأبعاد للإنسان. نستفيد من القيود التي توفرها الهندسة ثلاثية الأبعاد لترتيب الكاميرات والهيكل ثلاثي الأبعاد للجسم البشري لتجميع التوقعات ثنائية الأبعاد لكل زاوية بشكل احتمالي إلى وضع عالمي مثالي ثلاثي الأبعاد. يتم استخدام هذا الوضع الثلاثي الأبعاد كأساس لحصاد الشروح. تُظهر فائدة الشروح المنتجة تلقائيًا باستخدام نهجنا في حالين صعبين: (i) تعديل شبكة الالتفاف العامة للتنبؤ بالوضع ثنائي الأبعاد لالتقاط الجوانب المميزة لمظهر الموضوع (أي "التخصيص")، و(ii) تدريب شبكة الالتفاف من الصفر للتنبؤ بالوضع الثلاثي الأبعاد للإنسان في زاوية واحدة دون الاستفادة من بيانات الحقيقة الأرضية للوضع الثلاثي الأبعاد. يحقق المقدر المقترح للوضع المتعدد الزوايا نتائجًا رائدة على مقاييس قياسية، مما يدل على فعالية طريقتنا في استغلال المعلومات المتاحة المتعددة الزوايا.