PV-RCNN: استخراج مجموعات الخصائص من النقاط والفيوكسل للكشف عن الأشياء ثلاثية الأبعاد

نقدم إطارًا جديدًا وعالي الأداء للكشف عن الأجسام ثلاثية الأبعاد من السحب النقطية، يُسمى PointVoxel-RCNN (PV-RCNN). تعمق الطريقة المقترحة في دمج شبكات العصب الاصطناعي ثلاثية الأبعاد المستندة إلى الفوكسل (3D Voxel CNN) وتجريد المجموعات المستند إلى PointNet لتعلم خصائص أكثر تمييزًا للسحب النقطية. يستفيد الإطار المقترح من التعلم الفعال والمقترحات عالية الجودة التي توفرها شبكة 3D Voxel CNN، بالإضافة إلى حقول الاستقبال المرنة لشبكات PointNet. تحديدًا، يقوم الإطار المقترح بتلخيص المشهد ثلاثي الأبعاد باستخدام شبكة 3D Voxel CNN إلى مجموعة صغيرة من النقاط الرئيسية عبر وحدة تجريد الفوكسل الجديدة لتوفير الحسابات اللاحقة وتشفير الخصائص المشهدية الممثلة. بالنظر إلى المقترحات ثلاثية الأبعاد عالية الجودة التي تولدها شبكة الفوكسل، تم اقتراح RoI-grid pooling لتجريد الخصائص الخاصة بالمقترحات من النقاط الرئيسية إلى نقاط RoI-grid عبر تجريد مجموعة النقاط الرئيسية بحقول استقبال متعددة. مقارنةً بالعمليات التقليدية للجمع، تحتوي نقاط الميزات RoI-grid على معلومات سياقية غنية بكثير لمعرفة ثقة الكائن وموقعه بدقة. أظهرت التجارب الواسعة على كل من مجموعة بيانات KITTI ومجموعة بيانات Waymo Open أن PV-RCNN المقترحة تتفوق على أفضل طرق الكشف ثلاثي الأبعاد بمargins ملحوظة باستخدام السحب النقطية فقط. يمكن الوصول إلى الرمز البرمجي من خلال الرابط: https://github.com/open-mmlab/OpenPCDet.