HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف المؤشرات الإقليمية في CLIP للفصل الدلالي الصفري التدريب

Shi-Min Hu Miao Wang Meng-Hao Guo Yi Zhang

الملخص

أظهر نموذج CLIP تقدماً ملحوظاً في التعرف البصري بفضل قدرته على التدريب المسبق القوي على أزواج صور ونصوص على نطاق واسع. ومع ذلك، لا يزال يشكل تحدياً جوهرياً: كيف يتم نقل المعرفة على مستوى الصورة إلى مهام الفهم على مستوى البكسل، مثل التجزئة الدلالية. في هذه الورقة، لحل التحدي المذكور، نحلل الفجوة بين قدرة نموذج CLIP ومتطلبات مهمة التجزئة الدلالية بدون تدريب (zero-shot). استناداً إلى تحليلنا وملاحظاتنا، نقترح طريقة جديدة للتجزئة الدلالية بدون تدريب تُسمى CLIP-RC (CLIP مع أدلة إقليمية)، والتي تقدم رؤيتين رئيسيتين. من ناحية، من الضروري وجود جسر على مستوى المنطقة لتوفير دلالات دقيقة. ومن ناحية أخرى، يجب تقليل الازدواجية (overfitting) خلال مرحلة التدريب. وبفضل هذه الاكتشافات، تحقق CLIP-RC أداءً رائداً في مجالات التجزئة الدلالية بدون تدريب المختلفة، بما في ذلك مجموعات بيانات PASCAL VOC وPASCAL Context وCOCO-Stuff 164K. سيتم إتاحة الكود على الرابط: https://github.com/Jittor/JSeg.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استكشاف المؤشرات الإقليمية في CLIP للفصل الدلالي الصفري التدريب | مستندات | HyperAI