الكشف الدقيق والزمني الحقيقي عن المشاة ثلاثي الأبعاد باستخدام شبكة أعمدة فعالة وموجهة

كشف الأشخاص بكفاءة ودقة من بيانات السحابة النقطية ثلاثية الأبعاد له أهمية كبيرة في العديد من تطبيقات الروبوتات والقيادة الذاتية. تعتبر هذه المهمة الأساسية في الإدراك ما زالت تحديًا كبيرًا بسبب (أ) التغيرات الكبيرة في وضعية الجسم والحركة البشرية مع مرور الوقت، و(ب) ندرة البيانات النقطية وقلتها للأشياء من فئة المشاة. تعتمد الطرق الحديثة للكشف عن الأجسام ثلاثية الأبعاد على خصائص الأعمدة (pillar features) للكشف عن الأجسام من بيانات السحابة النقطية. ومع ذلك، فإن هذه الخصائص لا تحمل تمثيلات كافية للتعامل مع جميع التحديات المذكورة أعلاه في كشف الأشخاص. لمعالجة هذا القصور، نقدم أولاً وحدة انتباه مدركة للأعمدة قابلة للتراكم (Pillar Aware Attention - PAA) لتحسين استخراج خصائص الأعمدة بينما يتم تقليل الضوضاء في السحابة النقطية. من خلال دمج التجميع متعدد القنوات النقاطي (multi-point-channel-pooling)، والانتباه النقاطي والقنواتي والمهم-المدرك في وحدة بسيطة، يتم تعزيز قدرات التمثيل مع الحاجة إلى موارد حاسوبية إضافية قليلة. كما نقدم Mini-BiFPN، وهو شبكة خصائص صغيرة ولكنها فعالة تخلق تدفق معلومات ثنائي الاتجاه ودمجًا متعدد المستويات للخصائص عبر المقياس لتتكامل الخصائص متعددة الدقة بشكل أفضل. تم تقييم الإطار المقترح لدينا، المعروف باسم PiFeNet، على ثلاثة مجموعات بيانات كبيرة ومحل تقدير للكشف عن المشاة ثلاثي الأبعاد وهي KITTI وJRDB وnuScenes، حيث حقق أداءً يتفوق على أفضل الأساليب الحالية (SOTA) في عرض الطائر لمجموعة KITTI وفي JRDB وأداءً تنافسيًا جدًا في nuScenes. يصل سرعة الاستدلال في طريقتنا إلى 26 إطارًا لكل ثانية (FPS)، مما يجعلها كاشفًا زمنيًا حقيقيًا. يمكن الوصول إلى رمز PiFeNet الخاص بنا على الرابط https://github.com/ldtho/PiFeNet.