التعلم للتقسيم الدلالي ثلاثي الأبعاد باستخدام إشراف صور ثنائية الأبعاد فقط

مع النمو الأخير في مشاريع الخرائط الحضرية والقيادة الذاتية، شهدت البيانات ثلاثية الأبعاد الخام التي تم جمعها من منصات أرضية مزودة بمستشعرات الليدار وكاميرات ألوان انتشارًا هائلاً. ومع ذلك، نظرًا لتكاليف التسمية العالية، تظل التسميات ثلاثية الأبعاد ذات الدلالة الوظيفية (3D semantic segmentation) محدودة من حيث الكمية والتنوع الجغرافي، كما يصعب نقلها عبر أنواع مختلفة من المستشعرات. في المقابل، تتوفر مجموعات صور كبيرة مُسمّاة دلاليًا ثلاثي الأبعاد لمشاهد متنوعة بسهولة. في هذا البحث، نستكشف كيفية استخدام مجموعات الصور المُسمّاة ثنائية الأبعاد فقط لتدريب نماذج تصنيف دلالي ثلاثي الأبعاد. يعتمد نهجنا على تدريب نموذج ثلاثي الأبعاد باستخدام تسميات افتراضية مشتقة من تقسيم الصور ثنائية الأبعاد باستخدام تقنية دمج الرؤى المتعددة. ونعالج عدة قضايا جديدة في هذا النهج، بما في ذلك كيفية اختيار التسميات الافتراضية الموثوقة، وكيفية عينة المشاهد ثلاثية الأبعاد التي تحتوي على فئات كائنات نادرة، وكيفية فصل الميزات المدخلة من الصور ثنائية الأبعاد عن التسميات الافتراضية أثناء التدريب. وحقق التصميم الشبكي المقترح، 2D3DNet، أداءً أفضل بشكل ملحوظ (بزيادة 6.2 إلى 11.4 نقطة في مقياس mIoU) مقارنة بالأساليب الأساسية، وذلك خلال تجارب على مجموعة بيانات حضرية جديدة تم جمعها باستخدام الليدار والصور في 20 مدينة عبر 5 قارات.