منذ 6 أشهر

الملخص

نُقدِّم نموذج Masking البُعد التمييزي للرؤية باستخدام مُحَوِّل فيت (CFM-ViT) – وهي منهجية تدريب مسبق على الصور والنصوص تُحقِّق التعلُّم المتزامن للتمثيلات على مستوى الصورة وعلى مستوى المنطقة للكشف عن الكائنات في بيئة مفتوحة (OVD). يُدمج نهجنا هدف المُعدِّل المُقنَّع (MAE) ضمن هدف التعلُّم التمييزي لتحسين التمثيلات في المهام المتعلقة بالتحديد المكاني. على عكس النموذج القياسي لـ MAE، نُنفِّذ عملية إعادة بناء في فضاء التمثيل المشترك بين الصورة والنص، بدلًا من الفضاء البكسلية الذي يُستخدم تقليديًا في النموذج الكلاسيكي لـ MAE، ما يُمكّن النموذج من تعلُّم معاني مستوى المنطقة بشكل أفضل. بالإضافة إلى ذلك، نقدِّم إسقاط التمثيل المكاني (PED) لمعالجة التباين في المقياس بين مرحلة التدريب المسبق على الصور والنصوص ومرحلة التخصيص (finetuning) للكشف، وذلك بحذف عشوائي لتمثيلات الموضع أثناء التدريب المسبق. يُحسِّن PED من أداء الكشف، ويُمكّن من استخدام نواة ViT المُجمَّدة كClassifer للمناطق، مما يمنع نسيان المعرفة المتعلقة بالبيئة المفتوحة أثناء التخصيص. على معيار الكشف في بيئة مفتوحة LVIS، يحقِّق CFM-ViT أداءً متميزًا بـ 33.9 AP $r$ ، متفوِّقًا على أفضل نموذج سابق بفارق 7.6 نقطة، ويُظهر أداءً أفضل في نقل الكشف بدون تدريب (zero-shot). في النهاية، يمتلك CFM-ViT تمثيلًا قويًا على مستوى الصورة، ويتفوَّق على الحد الأقصى المُحقَّق في 8 من أصل 12 معيارًا في اختبارات الاسترجاع الصوري-النصي بدون تدريب.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Dahun Kim Anelia Angelova Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Dahun Kim Anelia Angelova Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Dahun Kim Anelia Angelova Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التمييزية للإخفاء الميزات في نموذج رؤية مفتوح المفردات من نوع التحويلة التلافيفية

Dahun Kim Anelia Angelova Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التمييزية للإخفاء الميزات في نموذج رؤية مفتوح المفردات من نوع التحويلة التلافيفية

Dahun Kim Anelia Angelova Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التمييزية للإخفاء الميزات في نموذج رؤية مفتوح المفردات من نوع التحويلة التلافيفية

Dahun Kim Anelia Angelova Weicheng Kuo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters