HyperAIHyperAI

Command Palette

Search for a command to run...

التمييزية للإخفاء الميزات في نموذج رؤية مفتوح المفردات من نوع التحويلة التلافيفية

Dahun Kim Anelia Angelova Weicheng Kuo

الملخص

نُقدِّم نموذج Masking البُعد التمييزي للرؤية باستخدام مُحَوِّل فيت (CFM-ViT) – وهي منهجية تدريب مسبق على الصور والنصوص تُحقِّق التعلُّم المتزامن للتمثيلات على مستوى الصورة وعلى مستوى المنطقة للكشف عن الكائنات في بيئة مفتوحة (OVD). يُدمج نهجنا هدف المُعدِّل المُقنَّع (MAE) ضمن هدف التعلُّم التمييزي لتحسين التمثيلات في المهام المتعلقة بالتحديد المكاني. على عكس النموذج القياسي لـ MAE، نُنفِّذ عملية إعادة بناء في فضاء التمثيل المشترك بين الصورة والنص، بدلًا من الفضاء البكسلية الذي يُستخدم تقليديًا في النموذج الكلاسيكي لـ MAE، ما يُمكّن النموذج من تعلُّم معاني مستوى المنطقة بشكل أفضل. بالإضافة إلى ذلك، نقدِّم إسقاط التمثيل المكاني (PED) لمعالجة التباين في المقياس بين مرحلة التدريب المسبق على الصور والنصوص ومرحلة التخصيص (finetuning) للكشف، وذلك بحذف عشوائي لتمثيلات الموضع أثناء التدريب المسبق. يُحسِّن PED من أداء الكشف، ويُمكّن من استخدام نواة ViT المُجمَّدة كClassifer للمناطق، مما يمنع نسيان المعرفة المتعلقة بالبيئة المفتوحة أثناء التخصيص. على معيار الكشف في بيئة مفتوحة LVIS، يحقِّق CFM-ViT أداءً متميزًا بـ 33.9 APrrr، متفوِّقًا على أفضل نموذج سابق بفارق 7.6 نقطة، ويُظهر أداءً أفضل في نقل الكشف بدون تدريب (zero-shot). في النهاية، يمتلك CFM-ViT تمثيلًا قويًا على مستوى الصورة، ويتفوَّق على الحد الأقصى المُحقَّق في 8 من أصل 12 معيارًا في اختبارات الاسترجاع الصوري-النصي بدون تدريب.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp