إعادة التفكير في تمثيل الرؤية النطاقية لتقسيم LiDAR

يُعد تقسيم ليدار (LiDAR segmentation) أمرًا حاسمًا لاستشعار القيادة الذاتية. تُفضّل الاتجاهات الحديثة الأساليب القائمة على النقاط (point-based) أو البلوكات (voxel-based)، نظرًا لأنها غالبًا ما تُحقق أداءً أفضل مقارنة بالتمثيل التقليدي القائم على الرؤية الطولية (range view). في هذه الدراسة، نكشف عن عوامل رئيسية في بناء نماذج قوية قائمة على الرؤية الطولية. نلاحظ أن التمثيل "من كثير إلى واحد" (many-to-one mapping)، وعدم الاتساق الدلالي، والتشوه الشكلي قد تكون عوائق محتملة أمام التعلم الفعّال من التمثيلات الطولية. نقدّم "RangeFormer" – إطارًا شاملاً يشمل تصميمات مبتكرة في بنية الشبكة العصبية، وتعزيز البيانات، ومعالجة ما بعد التدريب – والذي يُحسّن من قدرة معالجة وتعلم سحابات نقاط ليدار من خلال التمثيل الطولي. كما نقدّم استراتيجية تدريب قابلة للتوسع من الرؤية الطولية (Scalable Training from Range view - STR)، التي تُدرّب على صور طولية ثنائية الأبعاد ذات دقة منخفضة متعددة، مع الحفاظ على دقة مرضية في التصنيف ثلاثي الأبعاد. نُظهر لأول مرة أن نموذجًا قائماً على الرؤية الطولية قادر على التفوق على النماذج القائمة على النقاط، والبلوكات، والدمج المتعدد للرؤى في معايير التصنيف الدلالي والبياني (panoptic) لليدار، مثل: SemanticKITTI وnuScenes وScribbleKITTI.