HyperAIHyperAI

Command Palette

Search for a command to run...

مقاومة النمط المفقود في التجزئة الدلالية متعددة الوسائط شبه المراقبة

Harsh Maheshwari Yen-Cheng Liu Zsolt Kira

الملخص

تم إثبات أن استخدام عدة وسائط مكانيّة يُعدّ مفيدًا في تحسين أداء التجزئة الدلالية. ومع ذلك، تبقى هناك تحديات واقعية عديدة لم تُحل بعد، ومنها: (أ) تحسين كفاءة التسمية، و(ب) تعزيز المرونة في السيناريوهات الواقعية التي تُفقد فيها الوسائط أثناء الاختبار. وللتعامل مع هذه التحديات، نقترح أولًا آلية بسيطة وفعّالة لدمج الوسائط المتعددة تُسمى "الدمج الخطي" (Linear Fusion)، والتي تُظهر أداءً أفضل من النماذج الرائدة في مجال الوسائط المتعددة، حتى مع وجود تدريب محدود. ثانيًا، نقترح إطار عمل يُسمى M3L: Multi-modal Teacher for Masked Modality Learning، وهو إطار شبه مُراقب يُحسّن أداء التجزئة المتعددة الوسائط، كما يُعزز مقاومة النموذج لسيناريوهات فقدان الوسائط في الواقع باستخدام بيانات غير مُعلّمة. وقد قمنا بإنشاء أول معيار (Benchmark) لتجزئة الدلالة متعددة الوسائط شبه مُراقبة، كما قدمنا تقارير حول المقاومة لفقدان الوسائط. تُظهر النتائج المقدمة تحسينًا مطلقًا يصل إلى 10% في مؤشر mIoU المقاوم مقارنةً بأقوى النماذج القائمة. يمكن الوصول إلى الشفرة المصدرية لمشروعنا عبر الرابط التالي: https://github.com/harshm121/M3L


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مقاومة النمط المفقود في التجزئة الدلالية متعددة الوسائط شبه المراقبة | مستندات | HyperAI