HyperAIHyperAI
منذ 2 أشهر

عندما يلتقي اكتشاف المشاة بالتعلم متعدد الأوضاع: نموذج عام وقاعدة بيانات معيارية

Zhang, Yi ; Zeng, Wang ; Jin, Sheng ; Qian, Chen ; Luo, Ping ; Liu, Wentao
عندما يلتقي اكتشاف المشاة بالتعلم متعدد الأوضاع: نموذج عام وقاعدة بيانات معيارية
الملخص

شهدت السنوات الأخيرة زيادة الاهتمام البحثي بكشف المشاة من خلال الاستفادة من أنواع مختلفة من أجهزة الاستشعار (مثل RGB، والأشعة تحت الحمراء IR، والعمق Depth، وLiDAR، والأحداث Event). ومع ذلك، لا يزال تصميم نموذج عام موحد يمكنه معالجة أنواع متنوعة من أجهزة الاستشعار بمثابة تحدي. يقدم هذا البحث نموذج MMPedestron، وهو نموذج عام جديد متعدد الوسائط للمعرفة الحسية. على عكس النماذج المتخصصة السابقة التي تعالج فقط إدخالات وسيلة استشعار واحدة أو زوج واحد منها، فإن MMPedestron قادر على معالجة إدخالات متعددة للوسائط وأنماط توليفها الديناميكية. يتكون النهج المقترح من مُشفِّر موحد لتمثيل الوسائط وتوليفها ورأس عام لكشف المشاة. نقدم رمزين قابلين للتعلم إضافيين، وهما MAA وMAF، للتوليف التكيفي للميزات متعددة الوسائط. بالإضافة إلى ذلك، قمنا ببناء مجموعة بيانات MMPD، وهي أول مقاييسة كبيرة لمعرفة المشاة متعددة الوسائط. تتضمن هذه المقاييسة المجموعات العامة الموجودة وجديدًا تم جمعه يُدعى EventPed، ويغطي نطاقًا واسعًا من أنواع أجهزة الاستشعار بما في ذلك RGB، والأشعة تحت الحمراء IR، والعمق Depth، وLiDAR، ومعلومات الأحداث Event data. باستخدام التدريب المشترك متعدد الوسائط، حقق نموذجنا أفضل الأداء في مجموعة متنوعة من مقاييس كشف المشاة، مما يتفوق على النماذج الرائدة المصممة لكل نوع مستشعر خاص. على سبيل المثال، حقق 71.1 AP في COCO-Persons و72.6 AP في LLVIP. وبشكل لافت للنظر، حقق نموذجنا أداءً مشابهًا لنموذج InternImage-H في CrowdHuman مع وجود عدد أقل بكثير من المعلمات (30 مرة). يمكن الحصول على الكود والمعلومات من الرابط: https://github.com/BubblyYi/MMPedestron.

عندما يلتقي اكتشاف المشاة بالتعلم متعدد الأوضاع: نموذج عام وقاعدة بيانات معيارية | أحدث الأوراق البحثية | HyperAI