OccFormer: محول ذو مسارين للتنبؤ بالاحتلال الدلالي ثلاثي الأبعاد المستند إلى الرؤية

تعرض تقنية الإدراك القائم على الرؤية في القيادة الذاتية تحولاً من تمثيلات المنظور الطائر (BEV) إلى الإشغال الدلالي ثلاثي الأبعاد. مقارنة بمستويات المنظور الطائر، يوفر الإشغال الدلالي ثلاثي الأبعاد معلومات هيكلية إضافية في الاتجاه الرأسي. يقدم هذا البحث "OccFormer"، وهو شبكة تحويل ثنائية المسارات لمعالجة الحجم ثلاثي الأبعاد بشكل فعال للتنبؤ بالإشغال الدلالي. يتميز "OccFormer" بالترميز طويل المدى والديناميكي والفعال للميزات الفوكسلية ثلاثية الأبعاد التي تولدها الكاميرا. يتم الحصول عليه عن طريق تحليل المعالجة الثقيلة ثلاثية الأبعاد إلى مسارات محول محلية وعالمية على المستوى الأفقي. بالنسبة لمحول الإشغال، قمنا بتعديل "Mask2Former" التقليدي للإشغال الدلالي ثلاثي الأبعاد من خلال اقتراح التجميع الحافظ والعينة المرشدة بالصنف، مما يخفف بشكل ملحوظ من الندرة وعدم التوازن بين الصنوف. تظهر النتائج التجريبية أن "OccFormer" يتفوق بشكل كبير على الأساليب الموجودة في استكمال المشهد الدلالي على مجموعة بيانات SemanticKITTI وفي تقسيم البيانات الدلالية لليدار على مجموعة بيانات nuScenes. يمكن الوصول إلى الشفرة البرمجية عبر الرابط: \url{https://github.com/zhangyp15/OccFormer}.