سيجما: شبكة مامبا التوأمية للتقسيم الدلالي متعدد الوسائط

التمييز الدلالي متعدد الوسائط يعزز بشكل كبير إدراك وكيل الذكاء الاصطناعي وفهم المشهد، خاصة في ظروف صعبة مثل الإضاءة المنخفضة أو البيئات المفرطة التعرض. الاستفادة من وسائط إضافية (X-وسائط) مثل الحرارية والعمق إلى جانب الألوان التقليدية RGB توفر معلومات مكملة، مما يمكن من التنبؤ الأكثر ثباتًا وأمانًا. في هذا البحث، نقدم سيجما، شبكة مامبا السيامية لتمييز دلالي متعدد الوسائط باستخدام تقنية مامبا المتقدمة. على عكس الأساليب التقليدية التي تعتمد على الشبكات العصبية المُعَمَّقة (CNNs)، والتي تتميز بمجالات استقبال محلية محدودة، أو متحولات الرؤية (ViTs)، التي تقدم مجالات استقبال عالمية ولكن بتعقيد تربيعي، فإن نموذجنا يحقق مجالات استقبال عالمية مع تعقيد خطي. من خلال استخدام مشفر سيامي وإبداع آلية دمج قائمة على مامبا، نتمكن من اختيار المعلومات الأساسية من الوسائط المختلفة بشكل فعال. ثم يتم تطوير محودِّث لتحسين قدرة النموذج على النمذجة القنواتية. تم تقييم طريقة المقترحة لدينا بدقة عالية في مهمتي التمييز الدلالي بين RGB-حراري وRGB-عمق، مما يثبت تفوقها ويُعد أول تطبيق ناجح للنماذج الفضائية الحالة (SSMs) في مهمات الإدراك متعددة الوسائط. الكود متاح على الرابط: https://github.com/zifuwan/Sigma.