Pyramid R-CNN: نحو أداء أفضل وقابلية تكيّف للكشف عن الكائنات ثلاثية الأبعاد

نقدم إطارًا مرنًا وعالي الأداء يُسمى Pyramid R-CNN للكشف عن الكائنات ثلاثية الأبعاد من سحابات النقاط في مرحلتين. تعتمد النماذج الحالية بشكل عام على النقاط أو المكعبات (الفيوكسلز) ذات الاهتمام لاستخراج ميزات المناطق المُهتمة (RoI) في المرحلة الثانية، لكنها لا تستطيع التعامل بفعالية مع ندرة هذه النقاط وتوزيعها غير الموحّد، مما قد يؤدي إلى فشل في اكتشاف الكائنات البعيدة. لحل هذه المشكلات، نقترح وحدة جديدة للمرحلة الثانية تُسمى "الرأس الهرمي لـ RoI"، التي تتعلم ميزات من النقاط النادرة ذات الاهتمام بشكل تكيفي. يتكون رأس RoI الهرمي من ثلاث مكونات رئيسية: أولاً، نقترح "هرم الشبكة لـ RoI"، الذي يخفف من مشكلة الندرة من خلال جمع النقاط ذات الاهتمام بشكل واسع لكل منطقة RoI بطريقة هرمية. ثانيًا، نقترح "الانتباه الشبكي لـ RoI"، وهي عملية جديدة تُمكّن من ترميز معلومات أكثر غنىً من النقاط النادرة من خلال دمج مشغّلات النقاط القائمة على الانتباه التقليدي والمشغّلات القائمة على الرسوم البيانية ضمن صيغة موحدة. ثالثًا، نقترح وحدة "التنبؤ بالنصف القُطري المُدرك للكثافة (DARP)"، التي يمكنها التكيف مع مستويات مختلفة من كثافة النقاط من خلال ضبط نطاق التركيز لمناطق RoI بشكل ديناميكي. وبدمج هذه المكونات الثلاثة، يصبح رأس RoI الهرمي مقاومًا للظروف النادرة وغير المتوازنة، ويمكن تطبيقه على مختلف الهياكل الأساسية ثلاثية الأبعاد (3D backbones) لتحسين أداء الكشف باستمرار. تُظهر التجارب الواسعة أن Pyramid R-CNN يتفوق على نماذج الكشف ثلاثية الأبعاد الرائدة بشكل كبير على كل من مجموعة بيانات KITTI وبيانات Waymo Open.