LSK3DNet: نحو إدراك ثلاثي الأبعاد فعّال وكفؤ باستخدام كيرنلز كبيرة نادرة

تتطلب الأنظمة المستقلة معالجة سحابات نقاط كبيرة الحجم، نادرة التعبئة، وغير منتظمة باستخدام موارد حسابية محدودة. ولهذا، يُعد تطوير طرق استشعار ليدار تكون كفؤة وفعالة أمرًا بالغ الأهمية. وعلى الرغم من أن توسيع حجم النواة ثلاثية الأبعاد بشكل مباشر يمكن أن يعزز الأداء، فإنه سيؤدي أيضًا إلى زيادة هائلة في التكلفة الحسابية بشكل مكعب. ولهذا، يُعد تطوير تصميمات نواة ثلاثية الأبعاد كبيرة ومُبسّطة أمرًا بالغ الأهمية، بحيث تُزيل الأوزان الزائدة وتعمل بكفاءة مع نوى أكبر. في هذه الورقة، نقترح شبكة عصبية ثلاثية الأبعاد ذات نواة كبيرة ونادرة (LSK3DNet) كفؤة وفعالة، تستخدم تقنية القص الديناميكية لتوسيع حجم النواة ثلاثية الأبعاد. يتكوّن نهجنا من مكوّنين رئيسيين: التفرع الفراغي الديناميكي (SDS) وتحديد الأوزان القنوية (CWS). يُطبّق SDS القص والنمو الديناميكية للأوزان الحجمية منذ البداية، بهدف تعلّم نواة ثلاثية الأبعاد كبيرة ونادرة. ويشمل هذا التصميم تحسينًا كبيرًا في الأداء، إلى جانب تقليل كبير في حجم النموذج والتكلفة الحسابية. علاوةً على ذلك، يُحدد CWS القنوات الأكثر أهمية لعملية الت convolution ثلاثية الأبعاد أثناء التدريب، ثم يُقص القنوات الزائدة لتسريع عملية الاستنتاج في المهام البصرية ثلاثية الأبعاد. ونُظهر فعالية LSK3DNet على ثلاث مجموعات بيانات معيارية وخمسة مسارات، مقارنةً بالنماذج الكلاسيكية وتصميمات النوى الكبيرة. وبشكل ملحوظ، حقق LSK3DNet أداءً متقدمًا على مستوى الحالة (state-of-the-art) في مجموعة بيانات SemanticKITTI (أي 75.6% في القياس الواحد، و63.4% في القياس المتعدد)، مع تقليل حجم النموذج بنسبة تقارب 40%، وتقليل العمليات الحسابية بنسبة تقارب 60% مقارنةً بالنموذج التقليدي للنواة ثلاثية الأبعاد الكبيرة.