Meta-RangeSeg: التصنيف الدلالي لتسلسل ليدار باستخدام تجميع الميزات المتعددة

يُعدّ مستشعر LiDAR ضروريًا لنظام الإدراك في المركبات ذاتية القيادة والروبوتات الذكية. وللوفاء بمتطلبات التشغيل في الوقت الفعلي ضمن التطبيقات الواقعية، يُصبح من الضروري تقسيم بيانات المسح باستخدام LiDAR بطريقة فعّالة. تعتمد معظم الطرق السابقة على إسقاط السحابة ثلاثية الأبعاد (3D point cloud) مباشرةً على صورة نطاق ثنائية الأبعاد (2D spherical range image)، بهدف الاستفادة من عمليات الترسيم الثنائية الأبعاد (2D convolutional operations) بكفاءة لتقسيم الصور. وعلى الرغم من تحقيق نتائج واعدة، إلا أن المعلومات الجوارية لا تُحافظ عليها بشكل جيد في عملية الإسقاط الكروي. علاوةً على ذلك، لا تُؤخذ المعلومات الزمنية بعين الاعتبار في مهام التقسيم المتمحورة حول المسح الواحد. ولحل هذه المشكلات، نقترح منهجية جديدة لتقسيم المعاني في تسلسلات LiDAR تُسمى Meta-RangeSeg، حيث تم تقديم تمثيل جديد يُعرف بصورة النطاق المتبقية (range residual image) لالتقاط المعلومات المكانية-الزمنية. وبشكل محدد، يتم استخدام Meta-Kernel لاستخراج السمات الميتا (meta features)، مما يقلل من التباين بين إحداثيات الصورة ثنائية الأبعاد المُدخلة وإحداثيات الفضاء الكارتيزي ثلاثي الأبعاد المُخرجة. كما يتم استخدام هيكل U-Net فعّال لاستخلاص السمات متعددة المقاييس. بالإضافة إلى ذلك، يعزز وحدة تجميع السمات (Feature Aggregation Module - FAM) دور قناة النطاق ويوحّد السمات من مستويات مختلفة. أجرينا تجارب واسعة لتقييم الأداء على مجموعتي بيانات SemanticKITTI وSemanticPOSS. وتبين النتائج المبشرة أن منهجيتنا Meta-RangeSeg أكثر كفاءة وفعالية مقارنةً بالطرق الحالية. ويُمكن الوصول إلى التنفيذ الكامل لعملنا عبر الرابط التالي: https://github.com/songw-zju/Meta-RangeSeg.