الاستدلال الصريح عن الإغلاق لتقدير وضعية الجسم البشري ثلاثي الأبعاد لعدة أشخاص

تشكل العوائق تهديداً كبيراً لتقدير الوضعيات ثلاثية الأبعاد للأشخاص المتعددين من خلال الكاميرا المونوكولار (الكاميرا أحادية العدسة) بسبب التباين الكبير في شكل وظهور وموقع العوائق. بينما تحاول الأساليب الحالية التعامل مع العوائق باستخدام قيود وضعيات / نماذج أولية، زيادة البيانات، أو الاستدلال الضمني، فإنها لا تزال تفشل في التعميم إلى وضعيات غير مألوفة أو حالات عوائق جديدة وقد ترتكب أخطاء كبيرة عند وجود عدة أشخاص. مستوحاة من القدرة الملفتة للنظر لدى البشر على استنتاج المفاصل المحجوبة من الدلائل المرئية، طورنا طريقة لنمذجة هذا العملية بشكل صريح مما يحسن بشكل كبير تقدير وضعيات الإنسان من أسفل إلى أعلى بوجود أو عدم وجود عوائق. أولاً، نقسم المهمة إلى مهمتين فرعيتين: اكتشاف النقاط الرئيسية المرئية واستدلال النقاط الرئيسية المحجوبة، ونقترح شبكة تقطير مرمزة تحت إشراف عميق (Deeply Supervised Encoder Distillation - DSED) لحل الثانية. لتدريب نموذجنا، نقترح نهجًا موجهًا بالهيكل العظمي لتناسب شكل الإنسان (Skeleton-guided human Shape Fitting - SSF) لتوليد علامات عوائق وهمية على قواعد البيانات الموجودة، مما يمكن الاستدلال الصريح بالعوائق. تظهر التجارب أن التعلم الصريح من العوائق يحسن تقدير وضعيات الإنسان. بالإضافة إلى ذلك، استغلال المعلومات على مستوى الخصائص للمفاصل المرئية يتيح لنا الاستدلال عن المفاصل المحجوبة بدقة أكبر. طرقنا تتفوق على أفضل الأساليب الرأسية والأسفلية في عدة مقاييس.