التحليل الدلالي القائم على التمايز من خلال دمج فعّال مُتَّصل بالانتباه

تُعد التجزئة الدلالية (SS) واعدة في تحليل المشاهد الخارجية ضمن التطبيقات الحيوية بالنسبة للسلامة، مثل المركبات الذاتية القيادة والتنقل المساعد، إلخ. ومع ذلك، تعتمد التجزئة الدلالية التقليدية بشكل رئيسي على الصور الملونة (RGB)، مما يحد من موثوقية هذه التقنية في المشاهد الخارجية المعقدة، حيث تفتقر الصور RGB إلى الأبعاد المعلوماتية الضرورية لفهم كامل للبيئات غير المقيدة. كجزء من دراسة أولية، نستعرض حالة كشف العوائق غير المتوقعة، مما يُظهر الحاجة الملحة إلى دمج البيانات متعددة الوسائط. وعليه، نقدّم في هذا العمل شبكة EAFNet، وهي شبكة فعّالة لدمج المعلومات عبر ج pontات الانتباه، لاستغلال المعلومات المكملة القادمة من أجهزة استشعار بصرية مختلفة. وبشكل خاص، ندمج استشعار التماسك البصري (Polarization Sensing) للحصول على معلومات إضافية، مع الأخذ بعين الاعتبار الخصائص البصرية لهذا النوع من الاستشعار التي تُمكّنه من تمثيل قوي للمواد المتنوعة. وباستخدام جهاز استشعار تماسك بصري من نوع واحد في عملية واحدة (Single-shot)، نُنشئ أول مجموعة بيانات RGB-P التي تتضمن 394 صورة مُعلّمة ومتزامنة محوريًا من صور RGB وتماسك بصري. وتُظهر مجموعة واسعة من التجارب الفعالية التي تتمتع بها شبكة EAFNet في دمج المعلومات من التماسك البصري والصور RGB، فضلًا عن مرونتها في التكيّف مع سيناريوهات دمج أجهزة استشعار أخرى.