SPEC: رؤية الأشخاص في البيئة البرية باستخدام كاميرا مقدرة

بسبب عدم توفر معلومات معلمات الكاميرا للصور الملتقطة في البيئة الطبيعية (in-the-wild)، تُطبّق الطرق الحالية لاستخراج وضعية وشكل الإنسان ثلاثي الأبعاد (HPS) افتراضات تبسيطية متعددة: التصوير بالمنظور الضعيف، وطول بؤري ثابت كبير، ودوران كاميرا صفر. وغالبًا ما لا تُحقق هذه الافتراضات ونُظهر بشكل كمي ونوعي أن هذه الافتراضات تؤدي إلى أخطاء في استعادة الشكل والوضعية ثلاثية الأبعاد. ولحل هذه المشكلة، نقدّم SPEC، أول طريقة لاستخراج HPS في البيئة الطبيعية تُقدّر منظور الكاميرا من صورة واحدة، وتستخدم هذه المعلومة لاستعادة الأجسام البشرية ثلاثية الأبعاد بدقة أعلى. أولاً، نُدرّب شبكة عصبية لتقدير مجال الرؤية، وميل الكاميرا (pitch)، والانحناء (roll) بناءً على الصورة المدخلة. ونستخدم خسائر جديدة تُحسّن دقة المعايرة مقارنةً بالعمل السابق. ثم نُدرّب شبكة جديدة تُدمج معلومات معايرة الكاميرا مع ميزات الصورة، وتستخدم هذه الميزات مجتمعةً لاستخلاص الشكل والوضعية ثلاثية الأبعاد. تُظهر SPEC أداءً أفضل من الطرق السابقة على المعيار القياسي (3DPW)، وكذلك على نوعين جديدين من المجموعات ذات زوايا كاميرا أكثر تحدّياً وطوال بؤريّة متغيرة. وبشكل خاص، نُنشئ مجموعة بيانات مُصطنعة واقعية بصريًا جديدة (SPEC-SYN) تحتوي على أجسام ثلاثية الأبعاد حقيقية (ground truth)، بالإضافة إلى مجموعة بيانات جديدة من البيئة الطبيعية (SPEC-MTP) تتضمن معايرة كاميرا وعناصر مرجعية عالية الجودة. تؤكد التحليلات النوعية والكمية أن معرفة معلمات الكاميرا أثناء الاستدلال تُحسّن بشكل ملحوظ استخلاص الأجسام البشرية. تتوفر الكود والبيانات لأغراض البحث عبر الرابط: https://spec.is.tue.mpg.de.