2DPASS: تقسيم الدلالات بمساعدة الأولويات ثنائية الأبعاد في السحابات النقطية لليدار

نظراً لكون كاميرات ومستشعرات ليدار تلتقط معلومات مكملة تُستخدم في القيادة الذاتية، فقد بُذلت جهود كبيرة لتطوير خوارزميات التجزئة الدلالية من خلال دمج البيانات متعددة الأوضاع. ومع ذلك، تتطلب الأساليب القائمة على الدمج بيانات مزدوجة، أي سحب نقاط ليدار وصور الكاميرا مع تطابقات دقيقة بين النقط والبكسلات، كمدخلات في مرحلتي التدريب والاستدلال، مما يعيق بشكل كبير تطبيقها في السيناريوهات العملية. لذلك، نقترح في هذا العمل "التجزئة الدلالية المدعومة بالأولويات ثنائية الأبعاد" (2DPASS)، وهي خطة تدريب عامة، لتعزيز تعلم التمثيل على سحب النقاط من خلال الاستفادة الكاملة من الصور ثنائية الأبعاد ذات المظهر الغني. وفي الممارسة العملية، يتمكن 2DPASS من الحصول على معلومات دلالية وبنائية أكثر غنىً من البيانات متعددة الأوضاع بفضل استخدام دمج وضع مساعد وأسلوب التحويل المتعدد الأبعاد إلى الفرد (MSFSKD). ثم يتم تقريب هذه المعلومات بشكل مباشر إلى الشبكة ثلاثية الأبعاد الخالصة. وبذلك، فإن أساسنا المجهز بـ 2DPASS يظهر تحسيناً كبيراً باستخدام إدخالات سحب النقاط فقط. وبالتحديد، فإنه يحقق أفضل النتائج الحالية في اختبارين كبيرين (أي SemanticKITTI وNuScenes)، بما في ذلك النتائج الأولى في كل من مسابقات المسح الواحد والمسوحات المتعددة لـ SemanticKITTI.