PillarNeXt: إعادة التفكير في تصميم الشبكات للكشف عن الكائنات ثلاثية الأبعاد في سحابات النقاط الليدار

بالنظر إلى كثافة السحابات النقطية الخام المنخفضة وغير المهيكلة، يركّز البحث في كشف الأجسام ثلاثية الأبعاد المستند إلى ليدار بشكل أساسي على تصميم مُجمّعات نقاط محلية مخصصة لتمثيل هندسي دقيق. في هذه الورقة، نعيد النظر في مُجمّعات النقاط المحلية من منظور تخصيص الموارد الحسابية. ونجد أن النماذج البسيطة القائمة على الأعمدة تُظهر أداءً مدهشًا من حيث الدقة والتأخير. علاوةً على ذلك، نُظهر أن التعديلات البسيطة المستمدة من نجاح كشف الأجسام ثنائية الأبعاد، مثل توسيع مجال الاستقبال، تُسهم بشكل كبير في تحسين الأداء. تُظهر التجارب الواسعة أن الشبكات القائمة على الأعمدة، التي تم تطويرها بتصميمات حديثة من حيث البنية المعمارية وطرق التدريب، تحقق أفضل أداء ممكن على المعيارين الشهيرين: مجموعة بيانات Waymo Open Dataset وnuScenes. تُحدّث نتائجنا الفهم الشائع القائل بأن تمثيل الهندسة التفصيلية ضروري لتحقيق أداء عالٍ في كشف الأجسام ثلاثية الأبعاد.