إنفيرنو: استنتاج تمثيلات مشهد ثلاثية الأبعاد مركزية على الكائنات دون إشراف

نُقدّم طريقة "INFERNO"، وهي طريقة لاستنتاج تمثيلات مركّزة حول الكائنات في المشاهد البصرية دون الاعتماد على التسميات التوضيحية. تتعلّم هذه الطريقة تفكيك المشهد إلى عدة كائنات، بحيث يمتلك كل كائن تمثيلاً منظّماً يُفصّل شكله وملامحه ووضعه الثلاثي الأبعاد. ولفرض هذا الهيكل، نعتمد على التقدّم الأخير في التصوير ثلاثي الأبعاد باستخدام الشبكات العصبية. يُعرّف كل تمثيل كائن بمجال إشعاعي عصبي محلي، يُستخدم لتوليد رؤى ثنائية الأبعاد للمشهد من خلال عملية تصوير قابلة للتفاضل. ثم تُدرّب النموذج لاحقاً عن طريق تقليل خسارة إعادة البناء بين المدخلات والمشاهد المُرسَلة المُناظِرة لها. نُظهِر تجريبياً أن INFERNO تكتشف الكائنات في المشهد دون الحاجة إلى إشراف. كما نُحقّق قابلية تفسير التمثيلات المستخرجة من خلال تعديل المشاهد المستخلصة وعرض التأثير المقابل في المخرجات المرسومة. وأخيراً، نُظهِر فائدة تمثيلاتنا ثلاثية الأبعاد للكائنات في مهمة استنتاج بصري باستخدام مجموعة بيانات CATER.