التمييزية للإخفاء الميزات في نموذج رؤية مفتوح المفردات من نوع التحويلة التلافيفية

نُقدِّم نموذج Masking البُعد التمييزي للرؤية باستخدام مُحَوِّل فيت (CFM-ViT) – وهي منهجية تدريب مسبق على الصور والنصوص تُحقِّق التعلُّم المتزامن للتمثيلات على مستوى الصورة وعلى مستوى المنطقة للكشف عن الكائنات في بيئة مفتوحة (OVD). يُدمج نهجنا هدف المُعدِّل المُقنَّع (MAE) ضمن هدف التعلُّم التمييزي لتحسين التمثيلات في المهام المتعلقة بالتحديد المكاني. على عكس النموذج القياسي لـ MAE، نُنفِّذ عملية إعادة بناء في فضاء التمثيل المشترك بين الصورة والنص، بدلًا من الفضاء البكسلية الذي يُستخدم تقليديًا في النموذج الكلاسيكي لـ MAE، ما يُمكّن النموذج من تعلُّم معاني مستوى المنطقة بشكل أفضل. بالإضافة إلى ذلك، نقدِّم إسقاط التمثيل المكاني (PED) لمعالجة التباين في المقياس بين مرحلة التدريب المسبق على الصور والنصوص ومرحلة التخصيص (finetuning) للكشف، وذلك بحذف عشوائي لتمثيلات الموضع أثناء التدريب المسبق. يُحسِّن PED من أداء الكشف، ويُمكّن من استخدام نواة ViT المُجمَّدة كClassifer للمناطق، مما يمنع نسيان المعرفة المتعلقة بالبيئة المفتوحة أثناء التخصيص. على معيار الكشف في بيئة مفتوحة LVIS، يحقِّق CFM-ViT أداءً متميزًا بـ 33.9 AP$r$، متفوِّقًا على أفضل نموذج سابق بفارق 7.6 نقطة، ويُظهر أداءً أفضل في نقل الكشف بدون تدريب (zero-shot). في النهاية، يمتلك CFM-ViT تمثيلًا قويًا على مستوى الصورة، ويتفوَّق على الحد الأقصى المُحقَّق في 8 من أصل 12 معيارًا في اختبارات الاسترجاع الصوري-النصي بدون تدريب.