Voxel R-CNN: نحو الكشف عن الكائنات ثلاثية الأبعاد القائمة على الفوكسل بأداء عالٍ

إن التقدم الحديث في كشف الأجسام ثلاثية الأبعاد يعتمد بشكل كبير على طريقة تمثيل البيانات ثلاثية الأبعاد، أي من خلال التمثيل القائمة على البكسل (Voxel-based) أو التمثيل القائم على النقاط (Point-based). تُعد العديد من النماذج الحالية عالية الأداء في كشف الأجسام ثلاثية الأبعاد قائمة على النقاط، نظرًا لأن هذا الهيكل يمكنه الحفاظ بشكل أفضل على المواقع الدقيقة للنقاط. ومع ذلك، فإن الميزات المستمدة من مستوى النقاط تؤدي إلى تكاليف حوسبة عالية بسبب التخزين غير المرتب. في المقابل، يُعد الهيكل القائم على البكسل أكثر ملاءمة لاستخراج الميزات، لكنه غالبًا ما يُنتج دقة أقل بسبب تقسيم البيانات المدخلة إلى شبكات منتظمة. في هذه الورقة، نتبع نظرة مختلفة قليلاً — نلاحظ أن الدقة في تحديد مواقع النقاط الخام ليست ضرورية لتحقيق أداء عالي في كشف الأجسام ثلاثية الأبعاد، وأن دقة البكسل الخشنة يمكن أن توفر دقة كافية للكشف. وبأخذ هذه الرؤية بعين الاعتبار، نصمم إطارًا بسيطًا ولكن فعّالًا قائمة على البكسل، يُسمى Voxel R-CNN. وباستغلال كامل لميزات البكسل بطريقة ثنائية المراحل، نحقق دقة كشف مماثلة لنماذج النقاط المتطورة حديثًا، ولكن بتكلفة حوسبة ضئيلة جدًا. يتكوّن Voxel R-CNN من شبكة أساس ثلاثية الأبعاد، وشبكة اقتراح مناطق ثنائية الأبعاد (BEV)، ووحدة كشف. كما تم تطوير تقنية "استخلاص ميزات RoI من البكسل" (Voxel RoI pooling) لاستخراج ميزات المناطق المحددة مباشرة من ميزات البكسل لتحسينها أكثر. أجرينا تجارب واسعة على مجموعة بيانات KITTI الشهيرة، وعلى مجموعة بيانات Waymo Open الحديثة. تُظهر النتائج أن Voxel R-CNN يحقق دقة كشف أعلى مقارنة بالطرق القائمة على البكسل الحالية، مع الحفاظ على معدل معالجة إطارات في الزمن الفعلي، أي بسرعة تصل إلى 25 إطارًا في الثانية على وحدة معالجة رسوميات NVIDIA RTX 2080 Ti. يمكن الوصول إلى الكود من خلال الرابط التالي: \url{https://github.com/djiajunustc/Voxel-R-CNN}.