MonoRUn: الكشف عن الكائنات ثلاثية الأبعاد باستخدام عدسة واحدة من خلال إعادة البناء ونقل عدم اليقين

التحديد المكاني للكائنات في الفضاء ثلاثي الأبعاد يُعد جزءًا صعبًا في الكشف عن الكائنات ثلاثية الأبعاد باستخدام كاميرا واحدة. أظهرت التطورات الحديثة في تقدير وضعية 6 درجات من الحرية (6DoF) أن التنبؤ بخرائط التطابق الكثيفة بين الصورة الثنائية الأبعاد والنموذج ثلاثي الأبعاد للكائن، ثم تقدير وضعية الكائن باستخدام خوارزمية النقطة المنظورية (PnP)، يمكن أن يحقق دقة متميزة في التحديد المكاني. ومع ذلك، تعتمد هذه الأساليب على التدريب باستخدام بيانات حقيقية لهندسة الكائن، وهي معلومات صعبة الحصول في المشاهد الخارجية الواقعية. لحل هذه المشكلة، نقترح إطارًا جديدًا يُدعى MonoRUn، الذي يتعلم التطابقات الكثيفة والهندسة بشكل ذاتي (self-supervised)، باستخدام تسميات بسيطة لصندوق الحدود الثلاثي الأبعاد. لاسترجاع الإحداثيات ثلاثية الأبعاد المرتبطة بالبكسل، نستخدم شبكة إعادة بناء إقليمية (regional reconstruction network) ذات وعي بالشكوك. في عملية التدريب ذاتيًا، تُنقَل الإحداثيات ثلاثية الأبعاد المتنبأ بها إلى مستوى الصورة. ونُقدِّم خسارة KL مقاومة (Robust KL loss) لتقليل خطأ إعادة التمثيل الموزون بالشكوك. خلال مرحلة الاختبار، نستفيد من شكوك الشبكة من خلال نقلها عبر جميع الوحدات التالية. وبشكل أكثر تحديدًا، نستخدم خوارزمية PnP المُدارة بالشكوك لتقدير وضعية الكائن وتماثلها (covariance). تُظهر التجارب الواسعة أن النهج المقترح يتفوق على أحدث الطرق المتطورة في معيار KITTI.