HyperAIHyperAI
منذ 2 أشهر

الكشف الدقيق والزمني الحقيقي عن المشاة ثلاثي الأبعاد باستخدام شبكة أعمدة فعالة وموجهة

Le, Duy-Tho ; Shi, Hengcan ; Rezatofighi, Hamid ; Cai, Jianfei
الكشف الدقيق والزمني الحقيقي عن المشاة ثلاثي الأبعاد باستخدام شبكة أعمدة فعالة وموجهة
الملخص

كشف الأشخاص بكفاءة ودقة من بيانات السحابة النقطية ثلاثية الأبعاد له أهمية كبيرة في العديد من تطبيقات الروبوتات والقيادة الذاتية. تعتبر هذه المهمة الأساسية في الإدراك ما زالت تحديًا كبيرًا بسبب (أ) التغيرات الكبيرة في وضعية الجسم والحركة البشرية مع مرور الوقت، و(ب) ندرة البيانات النقطية وقلتها للأشياء من فئة المشاة. تعتمد الطرق الحديثة للكشف عن الأجسام ثلاثية الأبعاد على خصائص الأعمدة (pillar features) للكشف عن الأجسام من بيانات السحابة النقطية. ومع ذلك، فإن هذه الخصائص لا تحمل تمثيلات كافية للتعامل مع جميع التحديات المذكورة أعلاه في كشف الأشخاص. لمعالجة هذا القصور، نقدم أولاً وحدة انتباه مدركة للأعمدة قابلة للتراكم (Pillar Aware Attention - PAA) لتحسين استخراج خصائص الأعمدة بينما يتم تقليل الضوضاء في السحابة النقطية. من خلال دمج التجميع متعدد القنوات النقاطي (multi-point-channel-pooling)، والانتباه النقاطي والقنواتي والمهم-المدرك في وحدة بسيطة، يتم تعزيز قدرات التمثيل مع الحاجة إلى موارد حاسوبية إضافية قليلة. كما نقدم Mini-BiFPN، وهو شبكة خصائص صغيرة ولكنها فعالة تخلق تدفق معلومات ثنائي الاتجاه ودمجًا متعدد المستويات للخصائص عبر المقياس لتتكامل الخصائص متعددة الدقة بشكل أفضل. تم تقييم الإطار المقترح لدينا، المعروف باسم PiFeNet، على ثلاثة مجموعات بيانات كبيرة ومحل تقدير للكشف عن المشاة ثلاثي الأبعاد وهي KITTI وJRDB وnuScenes، حيث حقق أداءً يتفوق على أفضل الأساليب الحالية (SOTA) في عرض الطائر لمجموعة KITTI وفي JRDB وأداءً تنافسيًا جدًا في nuScenes. يصل سرعة الاستدلال في طريقتنا إلى 26 إطارًا لكل ثانية (FPS)، مما يجعلها كاشفًا زمنيًا حقيقيًا. يمكن الوصول إلى رمز PiFeNet الخاص بنا على الرابط https://github.com/ldtho/PiFeNet.

الكشف الدقيق والزمني الحقيقي عن المشاة ثلاثي الأبعاد باستخدام شبكة أعمدة فعالة وموجهة | أحدث الأوراق البحثية | HyperAI