Frustum-PointPillars: نهج متعدد المراحل detec 3D باستخدام كاميرا RGB وLiDAR

تمثّل الكشف الدقيق عن الأجسام ثلاثية الأبعاد جزءًا أساسيًا من وحدة الإدراك في المركبات ذاتية القيادة. يُسهم فهم أدق للأشياء في الفضاء ثلاثي الأبعاد في تحسين اتخاذ القرارات والتخطيط للمسار. يُعدّ كل من كاميرات RGB ومستشعر LiDAR أكثر المستشعرات شيوعًا في المركبات ذاتية القيادة لاستشعار البيئة. وعلى الرغم من النتائج الواعدة التي أظهرتها العديد من الأساليب في الكشف ثنائي الأبعاد باستخدام صور RGB، إلا أن التحديد الفعّال للأجسام الصغيرة مثل المشاة داخل السحابة النقطية ثلاثية الأبعاد في المشاهد الكبيرة ظل مجالًا بحثيًا صعبًا. نقترح في هذا العمل منهجًا جديدًا يُسمى Frustum-PointPillars للكشف عن الأجسام ثلاثية الأبعاد باستخدام بيانات LiDAR. بدلًا من الاعتماد فقط على خصائص السحابة النقطية، نستفيد من التطورات المتطورة في مجال الكشف ثنائي الأبعاد لتقليل حجم الفضاء الثلاثي الأبعاد الذي يجب استكشافه. ثم نستخدم شبكة ترميز الميزات القصيرة (Pillar Feature Encoding) لتحديد موقع الأجسام في السحابة النقطية المختصرة. كما نقترح أيضًا طريقة مبتكرة لتقنيّة التمويه (masking) للسحاب النقطية، بهدف تحسين دقة تحديد موقع الأجسام. قمنا بتدريب شبكتنا على مجموعة بيانات KITTI، وأجرينا تجارب لتوضيح كفاءة الشبكة. وعلى مجموعة بيانات KITTI الاختبارية، تفوقت طريقةنا على الطرق الحديثة متعددة المستشعرات (SOTA) في الكشف عن المشاة ثلاثي الأبعاد (من منظور طيارة) مع تحقيق معدل تشغيل أسرع بدرجة كبيرة تبلغ 14 هرتز.