التفكيك البانوبيك القائم على ليدار من خلال شبكة النقل الديناميكية

مع التقدم السريع في القيادة الذاتية، أصبح من الضروري تزويد نظام الاستشعار الخاص بها بقدرة إدراك ثلاثية الأبعاد شاملة. ومع ذلك، تركز الدراسات الحالية على تحليل إما الكائنات (مثل السيارات والمشاة) أو المشاهد (مثل الأشجار والمباني) من مستشعر LiDAR بشكل منفصل. في هذا العمل، نتناول مسألة التجزئة الشاملة (panoptic segmentation) المستندة إلى LiDAR، والتي تهدف إلى تحليل الكائنات والمشاهد معًا بطريقة موحدة. كواحدة من أولى المحاولات في هذا المهمة الصعبة الجديدة، نقترح شبكة التحويل الديناميكية (DS-Net)، التي تعمل كإطار عمل فعّال للتجزئة الشاملة في مجال السحابة النقطية. وتمتاز DS-Net بثلاث خصائص جذابة: 1) تصميم قوي للهيكل الأساسي (backbone). تستخدم DS-Net الت convolution الأسطواني (cylinder convolution)، الذي صُمم خصيصًا للسحاب النقطية من مستشعر LiDAR. وتُشارك الميزات المستخرجة بين الفرع المعنى (semantic branch) والفرع الفردي (instance branch)، الذي يعمل بنمط تجميع من الأسفل إلى الأعلى. 2) التحويل الديناميكي لتوزيعات النقاط المعقدة. لاحظنا أن خوارزميات التجميع الشائعة مثل BFS أو DBSCAN غير قادرة على التعامل مع المشاهد المعقدة في السياقات ذاتية القيادة التي تتميز بتوزيع غير منتظم للسحاب النقطية وأحجام متغيرة للكائنات. لذلك، نقدّم وحدة تجميع قابلة للتعلم بكفاءة، تُسمى "التحويل الديناميكي"، التي تُعدّل دوال النواة تلقائيًا وفقًا لكل كائن. 3) الدمج المُوجه بالتوافق (consensus-driven fusion). في النهاية، يُستخدم الدمج المُوجه بالتوافق للتعامل مع التناقضات بين التنبؤات المعنوية والتنبؤات الفردية. ولتقييم أداء التجزئة الشاملة المستندة إلى LiDAR بشكل شامل، قمنا ببناء وتدقيق معايير تقييم من خلال داتا سيتيين كبيرين في مجال القيادة الذاتية باستخدام مستشعر LiDAR، وهما SemanticKITTI وnuScenes. أظهرت التجارب الواسعة أن DS-Net التي نقترحها تحقق دقة أعلى مقارنةً بالأساليب الرائدة الحالية. وبشكل لافت، حققنا المركز الأول في قائمة التصنيف العامة لـ SemanticKITTI، متفوّقين على المركز الثاني بنسبة 2.6% من حيث معيار PQ.