3D-RCNN: إعادة بناء ثلاثية الأبعاد للأشياء على مستوى المثيل من خلال التمثيل والمقارنة

نقدم إطارًا سريعًا للرؤية العكسية (inverse-graphics) لفهم المشهد ثلاثي الأبعاد على مستوى الكائنات الفردية. نُدرّب شبكة تلافيفية عميقة تتعلم تحويل مناطق الصورة إلى الشكل الكامل والوضع (pose) لجميع كائنات المشهد في الصورة. يُنتج طريقة التمثيل ثلاثي الأبعاد المضغوطة للمشهد، التي يمكن استخدامها مباشرة في تطبيقات مثل القيادة الذاتية. يمكن استخلاص العديد من إخراجات الرؤية ثنائية الأبعاد التقليدية، مثل التجزئة الفردية (instance segmentation) وخرائط العمق (depth-maps)، من خلال عرض بسيط لنموذج المشهد ثلاثي الأبعاد الناتج. نستفيد من مُعطيات الشكل المحددة حسب الفئة (class-specific shape priors) من خلال تعلُّم فضاء شكل منخفض الأبعاد من مجموعات نماذج CAD. كما نقدّم تمثيلات جديدة للشكل والوضع، تسعى نحو تحسين التكافؤ ثلاثي الأبعاد (3D equivariance) والتعميم. وللاستفادة من الإشارات الإشرافية الغنية المتوفرة على شكل تسميات ثنائية الأبعاد مثل التجزئة، نقترح خسارة قابلة للتفاضل تُسمى "Render-and-Compare"، التي تسمح بتعلم الشكل والوضع ثلاثي الأبعاد باستخدام إشراف ثنائي الأبعاد فقط. وقد قُمنا بتقييم طريقتنا على مجموعتي بيانات واقعية صعبة، هما Pascal3D+ وKITTI، حيث حققنا نتائج من الطراز الأول (state-of-the-art).