PV-RCNN++: استخلاص ميزات المجموعة النقطية-البلاصة مع تمثيل متجه محلي للكشف عن الكائنات ثلاثية الأبعاد

تلقى الكشف عن الكائنات الثلاثية الأبعاد اهتمامًا متزايدًا من قبل القطاع الصناعي والأكاديمي بفضل تطبيقاته الواسعة في مجالات مختلفة. في هذه الورقة، نقترح شبكة عصبية تلافيفية قائمة على مناطق الكائنات ثلاثية الأبعاد (PV-RCNNs) للكشف عن الكائنات ثلاثية الأبعاد على السحابات النقطية. أولاً، نقدم كاشفًا ثلاثي الأبعاد جديدًا يُسمى PV-RCNN، الذي يعزز أداء الكشف ثلاثي الأبعاد من خلال دمج عميق لتعلم الميزات لكل من الاستخلاص المبني على النقاط (point-based set abstraction) والتوسيع النادر المبني على المكعبات (voxel-based sparse convolution) عبر خطوتين جديدتين: ترميز المشهد من المكعبات إلى النقاط الرئيسية (voxel-to-keypoint scene encoding)، واستخلاص ميزات المناطق المحددة (RoI) من النقاط الرئيسية إلى الشبكة (keypoint-to-grid RoI feature abstraction). ثانيًا، نقترح إطارًا متقدمًا يُسمى PV-RCNN++ للكشف ثلاثي الأبعاد بشكل أكثر كفاءة ودقة. يتضمن هذا الإطار تحسينين رئيسيين: عينة مركزة حول المقترحات المقسمة (sectorized proposal-centric sampling) لتحسين إنتاج نقاط رئيسية أكثر تمثيلية بكفاءة، وعملية تجميع متجهية (VectorPool aggregation) لتحسين تجميع ميزات النقاط المحلية مع استهلاك أقل للموارد. وباستخدام هاتين الاستراتيجيتين، أصبحت شبكة PV-RCNN++ أسرع بحوالي 3 أضعاف مقارنة بـ PV-RCNN، مع تحقيق أداءً أفضل في الوقت نفسه. تُظهر التجارب أن الإطار المقترح PV-RCNN++ يحقق أفضل أداء في الكشف ثلاثي الأبعاد على مجموعة بيانات Waymo Open Dataset الواسعة النطاق والمنافسة للغاية، بسرعة استنتاج تصل إلى 10 إطارات في الثانية (FPS) في نطاق كشف بمساحة 150 م × 150 م.