PillarNet: كشف ثلاثي الأبعاد قائمة على الأعمدة بسرعة فائقة وأداء عالٍ

الكشف ثلاثي الأبعاد في الزمن الحقيقي وبأداء عالٍ يُعد أمرًا بالغ الأهمية للقيادة الذاتية. تعتمد معظم كاشفات الكائنات ثلاثية الأبعاد ذات الأداء الأفضل حديثًا بشكل رئيسي على التحويلات القائمة على النقاط أو على البكسلات ثلاثية الأبعاد (3D voxels)، وهي جميعها غير فعّالة من حيث الحسابات عند التنفيذ على الأنظمة المدمجة. على النقيض من ذلك، تستخدم الطرق القائمة على الأعمدة (pillar-based) تحويلات ثنائية الأبعاد فقط، مما يقلل من استهلاك الموارد الحسابية، لكنها تتخلف بشكل كبير عن نماذج البكسلات ثلاثية الأبعاد من حيث دقة الكشف. في هذا البحث، وبتحليل الفجوة الرئيسية في الأداء بين الكاشفات القائمة على الأعمدة والكاشفات القائمة على البكسلات، نطور كاشفًا ثلاثي الأبعاد يعتمد على الأعمدة، ويُسمّى PillarNet، يتميز بالسرعة والكفاءة العالية. يتكون PillarNet المُقترح من شبكة مشفرة قوية لتعلم ميزات الأعمدة بشكل فعّال، وشبكة وسط (neck) لدمج الميزات المكانية والدلالية، بالإضافة إلى وحدة كشف شائعة الاستخدام. وبفضل استخدامه فقط للتحويلات الثنائية الأبعاد، يُعد PillarNet مرنًا بخصوص الحجم المختار للأعمدة، كما يتوافق مع الخلفيات التقليدية للشبكات العصبية الثنائية الأبعاد (2D CNN)، مثل VGGNet وResNet. علاوةً على ذلك، يُستفيد PillarNet من دالة فقدان مُصممة خصيصًا تُسمى "فقدان الانسيابية المُفصَّلة حسب الاتجاه" (orientation-decoupled IoU regression loss)، إلى جانب فرع تنبؤ يأخذ بعين الاعتبار مقياس IoU. أظهرت النتائج التجريبية الواسعة على مجموعة بيانات nuScenes الضخمة ومجموعة بيانات Waymo Open Dataset أن PillarNet يتفوّق على أحدث الكاشفات ثلاثية الأبعاد من حيث الفعالية والكفاءة. يمكن الوصول إلى الكود عبر الرابط: \url{https://github.com/agent-sgs/PillarNet}.