النظرة الثلاثية للتنبؤ بالاحتلال الصرفي ثلاثي الأبعاد المستند إلى الرؤية

تستخدم الطرق الحديثة للاستشعار في القيادة الذاتية المركزة على الرؤية بشكل واسع تمثيل المنظور العلوي للطير (BEV) لوصف المشهد ثلاثي الأبعاد. رغم كفاءته الأفضل مقارنة بتمثيل الفوكسل، فإنه يواجه صعوبة في وصف البنية ثلاثية الأبعاد الدقيقة للمشهد باستخدام مستوى واحد فقط. لحل هذه المشكلة، نقترح تمثيل المنظور الثلاثي (TPV) الذي يرافق المنظور العلوي للطير بمستوىين عموديين إضافيين. نقوم بتوصيف كل نقطة في الفضاء ثلاثي الأبعاد من خلال جمع خصائصها المحjetaة على المستويات الثلاثة. للرفع من خصائص الصورة إلى الفضاء ثلاثي الأبعاد TPV، نقترح أيضًا مرمّز TPV مستند إلى الترانسفورمر (TPVFormer) للحصول على خصائص TPV بكفاءة عالية. نستخدم آلية الانتباه لتجميع خصائص الصورة المرتبطة بكل استفسار في كل مستوى من مستويات TPV. تظهر التجارب أن نموذجنا المدرب باستخدام الإشراف النادر يقوم بتوقع الاشغال الدلالية لكل الفوكسل بكفاءة. ولأول مرة، نثبت أنه يمكن استخدام المدخلات الكاميرية فقط لتحقيق أداء مماثل لطرق الاستشعار بالليدار في مهمة تقسيم الليدار على مجموعة بيانات nuScenes. الرمز: https://github.com/wzzheng/TPVFormer.请注意,"الفوكسل" 是 "voxel" 的阿拉伯语翻译,用于表示三维空间中的像素单元。此外,"TPVFormer" 作为一个专有名词,在阿拉伯语中保留了其英文形式。