WeakM3D: نحو الكشف عن الأشياء ثلاثية الأبعاد من خلال الصور أحادية العين بإشراف ضعيف

الكشف عن الأشياء ثلاثية الأبعاد باستخدام كاميرا واحدة هو أحد أكثر المهام تحديًا في فهم المشاهد ثلاثية الأبعاد. نظرًا لطبيعة الصور ثنائية الأبعاد التي تلتقطها الكاميرا الواحدة والتي تكون غير محددة بشكل جيد، تعتمد طرق الكشف ثلاثي الأبعاد الحالية بشدة على التدريب باستخدام مربعات الـ 3D المُشَاهَدَة يدويًا على السحابات النقطية للليدار (LiDAR). يعتبر هذا عملية توثيق مُرِهِقة وغالية الثمن. لتجنب الاعتماد على مربعات الـ 3D، نستكشف في هذه الورقة البحثية الكشف ثلاثي الأبعاد باستخدام كاميرا واحدة تحت إشراف ضعيف. بصفة خاصة، نقوم أولاً بالكشف عن مربعات ثنائية الأبعاد على الصورة. ثم نستخدم المربعات ثنائية الأبعاد المُولَّدة لاختيار النقاط المرتبطة بمنطقة الاهتمام (RoI) من السحابة النقطية للليدار كإشراف ضعيف. في النهاية، نستخدم شبكة عصبية لتوقع مربعات ثلاثية الأبعاد يمكن أن تتراص بدقة مع النقاط المرتبطة بمنطقة الاهتمام من السحابة النقطية للليدار. يتم تعلم هذه الشبكة عبر تقليل الخسارة الجديدة المقترحة لدينا للترابط الثلاثي الأبعاد بين تقديرات مربعات الـ 3D والنقاط المرتبطة بمنطقة الاهتمام من السحابة النقطية للليدار. سنوضح التحديات المحتملة لهذه المشكلة التعليمية ونحل هذه التحديات من خلال تقديم تصميمات فعالة عدة إلى طريقتنا. ستكون الرموز متاحة على الرابط: https://github.com/SPengLiang/WeakM3D.