الانvolución الشبكية للتنبؤ بشكل الإنسان من صورة واحدة

يتناول هذا البحث مشكلة تقدير الوضع والشكل البشري ثلاثي الأبعاد من صورة واحدة. تركز النهج السابقة على نموذج بارامتري للجسم البشري، المعروف باسم SMPL، وتحاول استنتاج البارامترات التي تؤدي إلى شبكة متسقة مع الأدلة الصورية. كان استنتاج هذه البارامترات مهمة صعبة للغاية، حيث أظهرت النماذج البارامتريّة أداءً أقل مقارنة بالحلول غير البارامتريّة فيما يتعلق بتقدير الوضع. في عملنا، نقترح تخفيف هذا الاعتماد الكبير على فضاء بارامترات النموذج. لا يزال لدينا حفظ طوبولوجيا الشبكة القالبية لـ SMPL، ولكن بدلاً من التنبؤ بالبارامترات النموذجية، نقوم باستنتاج الموقع الثلاثي الأبعاد مباشرة للرؤوس (الvertices) في الشبكة. هذه هي مهمة ثقيلة بالنسبة لشبكة عصبية تقليدية، ولكن الفكرة الأساسية لدينا هي أن الاستنتاج يصبح أسهل بكثير باستخدام Graph-CNN (شبكة CNN الرسومية). يسمح هذا التصميم لنا بترميز بنية الشبكة القالبية بشكل صريح داخل الشبكة واستغلال الخصائص المكانية التي توفرها الشبكة. يتم ربط الميزات المستندة إلى الصور برؤوس الشبكة، ويكون Graph-CNN مسؤولاً عن معالجتها على بنية الشبكة، بينما يكون هدف الاستنتاج لكل رأس هو موقعه الثلاثي الأبعاد.بعد استعادة الهندسة الكاملة ثلاثية الأبعاد للشبكة، إذا ما زلنا بحاجة إلى تخصيص بارامتري معين للنموذج، يمكن التنبؤ به بشكل موثوق من مواقع الرؤوس. نوضح مرونة وفعالية الانحدار الرسومي المقترح للمesh (الشبكة) من خلال ربط أنواع مختلفة من الميزات برؤوس الشبكة. في جميع الحالات، نتفوق على الخطوط الأساسية المماثلة التي تعتمد على استنتاج بارامترات النموذج، كما نحقق أفضل النتائج بين نهج تقدير الوضع المستندة إلى النماذج.