HyperAIHyperAI
منذ 16 أيام

التمييزية للإخفاء الميزات في نموذج رؤية مفتوح المفردات من نوع التحويلة التلافيفية

Dahun Kim, Anelia Angelova, Weicheng Kuo
التمييزية للإخفاء الميزات في نموذج رؤية مفتوح المفردات من نوع التحويلة التلافيفية
الملخص

نُقدِّم نموذج Masking البُعد التمييزي للرؤية باستخدام مُحَوِّل فيت (CFM-ViT) – وهي منهجية تدريب مسبق على الصور والنصوص تُحقِّق التعلُّم المتزامن للتمثيلات على مستوى الصورة وعلى مستوى المنطقة للكشف عن الكائنات في بيئة مفتوحة (OVD). يُدمج نهجنا هدف المُعدِّل المُقنَّع (MAE) ضمن هدف التعلُّم التمييزي لتحسين التمثيلات في المهام المتعلقة بالتحديد المكاني. على عكس النموذج القياسي لـ MAE، نُنفِّذ عملية إعادة بناء في فضاء التمثيل المشترك بين الصورة والنص، بدلًا من الفضاء البكسلية الذي يُستخدم تقليديًا في النموذج الكلاسيكي لـ MAE، ما يُمكّن النموذج من تعلُّم معاني مستوى المنطقة بشكل أفضل. بالإضافة إلى ذلك، نقدِّم إسقاط التمثيل المكاني (PED) لمعالجة التباين في المقياس بين مرحلة التدريب المسبق على الصور والنصوص ومرحلة التخصيص (finetuning) للكشف، وذلك بحذف عشوائي لتمثيلات الموضع أثناء التدريب المسبق. يُحسِّن PED من أداء الكشف، ويُمكّن من استخدام نواة ViT المُجمَّدة كClassifer للمناطق، مما يمنع نسيان المعرفة المتعلقة بالبيئة المفتوحة أثناء التخصيص. على معيار الكشف في بيئة مفتوحة LVIS، يحقِّق CFM-ViT أداءً متميزًا بـ 33.9 AP$r$، متفوِّقًا على أفضل نموذج سابق بفارق 7.6 نقطة، ويُظهر أداءً أفضل في نقل الكشف بدون تدريب (zero-shot). في النهاية، يمتلك CFM-ViT تمثيلًا قويًا على مستوى الصورة، ويتفوَّق على الحد الأقصى المُحقَّق في 8 من أصل 12 معيارًا في اختبارات الاسترجاع الصوري-النصي بدون تدريب.

التمييزية للإخفاء الميزات في نموذج رؤية مفتوح المفردات من نوع التحويلة التلافيفية | أحدث الأوراق البحثية | HyperAI