LCR-Net: التحديد - التصنيف - الانحدار لوضعية الإنسان

نُقدّم معمارية من النهاية إلى النهاية لتقدير موضع الإنسان ثنائي الأبعاد وثلاثي الأبعاد معًا في الصور الطبيعية. وجوهر نهجنا يكمن في إنشاء وتقييم عدد من اقتراحات الموضع لكل صورة، مما يمكّننا من التنبؤ بموضع الإنسان ثنائي الأبعاد وثلاثي الأبعاد لعدة أشخاص في آنٍ واحد. وبالتالي، لا يتطلب نهجنا تحديدًا تقريبيًا لمواقع البشر كمقدمة للحساب. تُسمّى المعمارية التي نقترحها LCR-Net، وتحتوي على ثلاث مكونات رئيسية: 1) مُولِّد اقتراحات الموضع الذي يقترح موضعًا محتملًا في مواقع مختلفة داخل الصورة؛ 2) فاصل (classifier) يُقيّم اقتراحات الموضع المختلفة؛ و3) مُعدّل (regressor) يُحسّن اقتراحات الموضع في البعدين ثنائي وثلاثي الأبعاد. وتشترك جميع المراحل الثلاث في طبقات الميزات التلافيفية (convolutional feature layers)، وتُدرّس معًا. ويتم الحصول على تقدير الموضع النهائي من خلال دمج الافتراضات القريبة من بعضها البعض، وهو ما أظهر تفوقه على خوارزمية قمع الحد الأقصى غير القياسي (non maximum suppression). وتفوق نهجنا بشكل ملحوظ على أحدث التقنيات في تقدير الموضع ثلاثي الأبعاد على مجموعة بيانات Human3.6M، وهي بيئة مُحكَمة. علاوةً على ذلك، تُظهر النتائج نجاحًا واعدًا على الصور الحقيقية، سواء في حالات الأشخاص الواحدين أو المتعددين، ضمن مجموعة اختبار MPII لتقدير الموضع ثنائي الأبعاد.