كشف الكائن متعدد الوسائط من خلال التبديل القناتي والانتباه المكاني
{Zheng Liu Erik Blasch Jozsef Hamari Junchi Bin Yue Cao}

الملخص
لقد لاقت كشف الأشياء متعددة الوسائط اهتمامًا كبيرًا في السنوات الأخيرة، نظرًا لأن المعلومات الخاصة بوسائط مختلفة يمكن أن تكمل بعضها البعض بشكل فعّال، مما يُحسّن دقة وثبات نموذج الكشف. ومع ذلك، مقارنةً بمعالجة المدخلات من وسيلة واحدة، فإن دمج المعلومات من وسائط متعددة يمكن أن يُضاعف بشكل كبير التعقيد الحسابي للنموذج، مما يُضعف كفاءته. ولذلك، يجب تصميم وحدة الدمج متعددة الوسائط بعناية، بحيث تعزز أداء نموذج الكشف مع الحفاظ على استهلاك منخفض للموارد الحسابية. في هذا البحث، نقترح وحدة دمج خفيفة الوزن جديدة تُمكن من دمج المدخلات من وسائط مختلفة بكفاءة باستخدام تقنية التبديل القنوي والانتباه المكاني (CSSA). وقد تم اختبار فعالية وقابلية التعميم للوحدة باستخدام مجموعتي بيانات عامتين متعددتي الوسائط هما LLVIP وFLIR، اللتان تتضمنان صورًا مزدوجة من النوعين الأشعة تحت الحمراء (IR) والمرئية (RGB). وأظهرت التجارب أن وحدة CSSA المقترحة يمكنها تحسين دقة كشف الأشياء متعددة الوسائط بشكل ملحوظ دون استهلاك موارد حسابية كبيرة.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| multispectral-object-detection-on-flir-1 | ProbEn | mAP: 37.9% mAP50: 75.5% |
| multispectral-object-detection-on-flir-1 | CSSA | mAP: 41.3% mAP50: 79.2% |
| multispectral-object-detection-on-flir-1 | GAFF | mAP: 37.4% mAP50: 74.6% |
| multispectral-object-detection-on-flir-1 | Halfway Fusion | mAP: 35.8% |
| pedestrian-detection-on-llvip | CSSA | AP: 0.592 |
| pedestrian-detection-on-llvip | GAFF | AP: 0.558 |
| pedestrian-detection-on-llvip | Halfway Fusion | AP: 0.551 |
| pedestrian-detection-on-llvip | ProbEn | AP: 0.515 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.