HyperAIHyperAI

Command Palette

Search for a command to run...

سيجما: شبكة مامبا التوأمية للتقسيم الدلالي متعدد الوسائط

Zifu Wan

الملخص

التمييز الدلالي متعدد الوسائط يعزز بشكل كبير إدراك وكيل الذكاء الاصطناعي وفهم المشهد، خاصة في ظروف صعبة مثل الإضاءة المنخفضة أو البيئات المفرطة التعرض. الاستفادة من وسائط إضافية (X-وسائط) مثل الحرارية والعمق إلى جانب الألوان التقليدية RGB توفر معلومات مكملة، مما يمكن من التنبؤ الأكثر ثباتًا وأمانًا. في هذا البحث، نقدم سيجما، شبكة مامبا السيامية لتمييز دلالي متعدد الوسائط باستخدام تقنية مامبا المتقدمة. على عكس الأساليب التقليدية التي تعتمد على الشبكات العصبية المُعَمَّقة (CNNs)، والتي تتميز بمجالات استقبال محلية محدودة، أو متحولات الرؤية (ViTs)، التي تقدم مجالات استقبال عالمية ولكن بتعقيد تربيعي، فإن نموذجنا يحقق مجالات استقبال عالمية مع تعقيد خطي. من خلال استخدام مشفر سيامي وإبداع آلية دمج قائمة على مامبا، نتمكن من اختيار المعلومات الأساسية من الوسائط المختلفة بشكل فعال. ثم يتم تطوير محودِّث لتحسين قدرة النموذج على النمذجة القنواتية. تم تقييم طريقة المقترحة لدينا بدقة عالية في مهمتي التمييز الدلالي بين RGB-حراري وRGB-عمق، مما يثبت تفوقها ويُعد أول تطبيق ناجح للنماذج الفضائية الحالة (SSMs) في مهمات الإدراك متعددة الوسائط. الكود متاح على الرابط: https://github.com/zifuwan/Sigma.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp