Transformer كروي للتعرف ثلاثي الأبعاد المستند إلى LiDAR

تم التمتع بفوائد التعرف على السحابة ثلاثية الأبعاد من النقاط المستندة إلى ليدار في تطبيقات مختلفة. تعاني معظم الطرق الحالية من انقطاع المعلومات وحدود مجال الاستقبال المحدود، خاصةً بالنسبة للنقاط النادرة على مسافات بعيدة، دون أخذ توزيع نقاط ليدار بعين الاعتبار بشكل خاص. في هذا العمل، ندرس توزيع النقاط في ليدار ذي كثافة متغيرة، ونقدّم نموذج SphereFormer الذي يُجمع المعلومات مباشرة من النقاط الكثيفة القريبة إلى النقاط النادرة البعيدة. قمنا بتصميم انتباه نافذة شعاعية (radial window self-attention) الذي يقسم الفضاء إلى نوافذ ضيقة وطويلة غير متداخلة متعددة، مما يحل مشكلة الانقطاع ويعزز مجال الاستقبال بشكل سلس وواضح، مما يعزز بشكل كبير أداء النقاط النادرة البعيدة. علاوة على ذلك، ولتلبية طبيعة النوافذ الضيقة والطويلة، نقترح تقسيمًا أسّيًا (exponential splitting) للحصول على ترميز مكاني دقيق، ونُقدّم اختيارًا ديناميكيًا للسمات لزيادة قدرة النموذج على التمثيل. ومن الجدير بالذكر أن طريقةنا حصلت على المركز الأول في كلا معياري التصنيف الدلالي (semantic segmentation) لـ nuScenes وSemanticKITTI، بتحقيق 81.9% و74.8% على التوالي من mIoU. كما حققنا المركز الثالث في معيار كشف الكائنات على nuScenes بتحقيق 72.8% من NDS و68.5% من mAP. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/dvlab-research/SphereFormer.git.