HyperAIHyperAI
منذ 11 أيام

مقاومة النمط المفقود في التجزئة الدلالية متعددة الوسائط شبه المراقبة

Harsh Maheshwari, Yen-Cheng Liu, Zsolt Kira
مقاومة النمط المفقود في التجزئة الدلالية متعددة الوسائط شبه المراقبة
الملخص

تم إثبات أن استخدام عدة وسائط مكانيّة يُعدّ مفيدًا في تحسين أداء التجزئة الدلالية. ومع ذلك، تبقى هناك تحديات واقعية عديدة لم تُحل بعد، ومنها: (أ) تحسين كفاءة التسمية، و(ب) تعزيز المرونة في السيناريوهات الواقعية التي تُفقد فيها الوسائط أثناء الاختبار. وللتعامل مع هذه التحديات، نقترح أولًا آلية بسيطة وفعّالة لدمج الوسائط المتعددة تُسمى "الدمج الخطي" (Linear Fusion)، والتي تُظهر أداءً أفضل من النماذج الرائدة في مجال الوسائط المتعددة، حتى مع وجود تدريب محدود. ثانيًا، نقترح إطار عمل يُسمى M3L: Multi-modal Teacher for Masked Modality Learning، وهو إطار شبه مُراقب يُحسّن أداء التجزئة المتعددة الوسائط، كما يُعزز مقاومة النموذج لسيناريوهات فقدان الوسائط في الواقع باستخدام بيانات غير مُعلّمة. وقد قمنا بإنشاء أول معيار (Benchmark) لتجزئة الدلالة متعددة الوسائط شبه مُراقبة، كما قدمنا تقارير حول المقاومة لفقدان الوسائط. تُظهر النتائج المقدمة تحسينًا مطلقًا يصل إلى 10% في مؤشر mIoU المقاوم مقارنةً بأقوى النماذج القائمة. يمكن الوصول إلى الشفرة المصدرية لمشروعنا عبر الرابط التالي: https://github.com/harshm121/M3L