HyperAIHyperAI
منذ 11 أيام

استكشاف المؤشرات الإقليمية في CLIP للفصل الدلالي الصفري التدريب

{Shi-Min Hu, Miao Wang, Meng-Hao Guo, Yi Zhang}
استكشاف المؤشرات الإقليمية في CLIP للفصل الدلالي الصفري التدريب
الملخص

أظهر نموذج CLIP تقدماً ملحوظاً في التعرف البصري بفضل قدرته على التدريب المسبق القوي على أزواج صور ونصوص على نطاق واسع. ومع ذلك، لا يزال يشكل تحدياً جوهرياً: كيف يتم نقل المعرفة على مستوى الصورة إلى مهام الفهم على مستوى البكسل، مثل التجزئة الدلالية. في هذه الورقة، لحل التحدي المذكور، نحلل الفجوة بين قدرة نموذج CLIP ومتطلبات مهمة التجزئة الدلالية بدون تدريب (zero-shot). استناداً إلى تحليلنا وملاحظاتنا، نقترح طريقة جديدة للتجزئة الدلالية بدون تدريب تُسمى CLIP-RC (CLIP مع أدلة إقليمية)، والتي تقدم رؤيتين رئيسيتين. من ناحية، من الضروري وجود جسر على مستوى المنطقة لتوفير دلالات دقيقة. ومن ناحية أخرى، يجب تقليل الازدواجية (overfitting) خلال مرحلة التدريب. وبفضل هذه الاكتشافات، تحقق CLIP-RC أداءً رائداً في مجالات التجزئة الدلالية بدون تدريب المختلفة، بما في ذلك مجموعات بيانات PASCAL VOC وPASCAL Context وCOCO-Stuff 164K. سيتم إتاحة الكود على الرابط: https://github.com/Jittor/JSeg.

استكشاف المؤشرات الإقليمية في CLIP للفصل الدلالي الصفري التدريب | أحدث الأوراق البحثية | HyperAI