فهم المشاهد المظلمة من خلال مقارنة الملاحظات متعددة الوسائط

الفهم السليم للمناظر المظلمة بناءً على بيانات الصور متعددة الوسائط يُعد تحديًا كبيرًا، نظرًا لتقديم كل من الوسائط المرئية والمساندة معلومات شكلية محدودة لهذا المهمة. اعتمدت الطرق السابقة على دمج الوسائط المتعارضة، لكنها أهملت الترابطات بين الفئات الشكلية عند تقليل الخسائر بهدف محاذاة البكسلات مع التسميات، مما أدى إلى توقعات غير دقيقة للفئات. ولحل هذه المشكلات، نقدم منهجًا مُراقبًا للتعلم التمييزي متعدد الوسائط، يهدف إلى تعزيز القدرة التمييزية الشكلية لفضاءات الميزات متعددة الوسائط المُتعلّمة، وذلك من خلال أداء مزدوج للتمييز عبر الوسائط (cross-modal) والتمييز الداخلي للوسيط (intra-modal) تحت إشراف الترابطات بين الفئات الشكلية. يشجع التمييز عبر الوسائط على تقارب التضمينات (embeddings) ذات الفئة نفسها من الوسائط المختلفة، ويُبعد التضمينات ذات الفئات المختلفة. أما التمييز الداخلي للوسيط، فيفرض تجميع التضمينات ذات الفئة نفسها أو فصل التضمينات ذات الفئات المختلفة داخل كل وسائط على حدة. وقد قمنا بتوثيق أداء منهجنا على مجموعة متنوعة من المهام التي تغطي ظروف إضاءة مختلفة ووسائط صور متنوعة. أظهرت التجارب أن منهجنا يمكنه بفعالية تعزيز فهم المناظر المظلمة بناءً على الصور متعددة الوسائط ذات المعلومات الشكلية المحدودة، من خلال تشكيل فضاءات ميزات تمييزية شكلية. كما أظهرت المقارنات مع الطرق السابقة أداءً متميزًا يُعد الأفضل في مجاله. يُمكن الوصول إلى الكود والنموذج المُدرّب مسبقًا عبر الرابط: https://github.com/palmdong/SMMCL.