S3CNet: شبكة إكمال المشهد الشكلي النادر لسحابات النقاط الليدار

مع التزايد المستمر في الاعتماد على الأنظمة الروبوتية ذاتية القيادة والأنظمة المشابهة على الرؤية ثلاثية الأبعاد القوية، أصبحت معالجة بيانات مسح ليدار باستخدام الشبكات العصبية التلافيفية العميقة ظاهرة شائعة في الأوساط الأكاديمية والصناعية على حد سواء. وقد حققت المحاولات السابقة في مهمة "إكمال المشهد الشامل معانيًا" – وهي مهمة تتطلب استنتاج البنية ثلاثية الأبعاد الكثيفة والعلامات المعنوية المرتبطة بها من تمثيلات "نادرة" – نجاحًا جزئيًا في المشاهد الداخلية الصغيرة، عند توفر سحابات نقطية كثيفة أو خرائط عمق كثيفة غالبًا ما تُدمج مع خرائط التصنيف المعنوي المستمدة من الصور RGB. ومع ذلك، تنخفض أداء هذه الأنظمة بشكل كبير عند تطبيقها على المشاهد الخارجية الكبيرة، التي تتميز بظروف ديناميكية وندرة متزايدة بشكل أسي في البيانات. كما أن معالجة الحجم النادر بالكامل أصبح أمرًا غير ممكن بسبب قيود الذاكرة، وغالبًا ما تُستخدم حلول بديلة تؤدي إلى عدم كفاءة حسابية، إذ يُجبر الممارسون على تقسيم الحجم الكلي إلى عدة أجزاء متساوية ومعالجتها بشكل منفصل، مما يجعل الأداء في الزمن الفعلي مستحيلًا. في هذا العمل، نُقدّم طريقة تُلخّص ندرة البيئات ذات الحجم الكبير، ونُقدّم S3CNet، وهي شبكة عصبية تعتمد على التلافيف النادرة، لتوقع المشهد المكتمل من حيث المعاني من سحابة نقطة ليدار واحدة موحدة. ونُظهر أن الطريقة المقترحة تتفوق على جميع النماذج المماثلة في المهمة ثلاثية الأبعاد، وتحقيق نتائج رائدة على معيار SemanticKITTI. علاوةً على ذلك، نقترح نسخة ثنائية الأبعاد من S3CNet تستخدم استراتيجية دمج متعددة الأنظار لتكميل الشبكة ثلاثية الأبعاد، مما يعزز المرونة أمام الظلال والندرة القصوى في المناطق البعيدة. ونُجري تجارب على مهمة إكمال المشهد الشامل معانيًا ثنائي الأبعاد، ونقارن نتائج شبكتنا الثنائية الأبعاد النادرة مع عدة نماذج رائدة لتصنيف ليدار مُعدّلة لتصنيف الرؤية من الأعلى (Bird’s Eye View) على مجموعتين مفتوحتين للبيانات.