كشف الكائن متعدد الوسائط من خلال التبديل القناتي والانتباه المكاني

لقد لاقت كشف الأشياء متعددة الوسائط اهتمامًا كبيرًا في السنوات الأخيرة، نظرًا لأن المعلومات الخاصة بوسائط مختلفة يمكن أن تكمل بعضها البعض بشكل فعّال، مما يُحسّن دقة وثبات نموذج الكشف. ومع ذلك، مقارنةً بمعالجة المدخلات من وسيلة واحدة، فإن دمج المعلومات من وسائط متعددة يمكن أن يُضاعف بشكل كبير التعقيد الحسابي للنموذج، مما يُضعف كفاءته. ولذلك، يجب تصميم وحدة الدمج متعددة الوسائط بعناية، بحيث تعزز أداء نموذج الكشف مع الحفاظ على استهلاك منخفض للموارد الحسابية. في هذا البحث، نقترح وحدة دمج خفيفة الوزن جديدة تُمكن من دمج المدخلات من وسائط مختلفة بكفاءة باستخدام تقنية التبديل القنوي والانتباه المكاني (CSSA). وقد تم اختبار فعالية وقابلية التعميم للوحدة باستخدام مجموعتي بيانات عامتين متعددتي الوسائط هما LLVIP وFLIR، اللتان تتضمنان صورًا مزدوجة من النوعين الأشعة تحت الحمراء (IR) والمرئية (RGB). وأظهرت التجارب أن وحدة CSSA المقترحة يمكنها تحسين دقة كشف الأشياء متعددة الوسائط بشكل ملحوظ دون استهلاك موارد حسابية كبيرة.