HyperAIHyperAI
منذ 11 أيام

ZegCLIP: نحو تكييف CLIP للتصنيف الدلالي الصفري الهدف

Ziqin Zhou, Bowen Zhang, Yinjie Lei, Lingqiao Liu, Yifan Liu
ZegCLIP: نحو تكييف CLIP للتصنيف الدلالي الصفري الهدف
الملخص

في الآونة الأخيرة، تم تطبيق CLIP على مهام التعلم الصفرية على مستوى البكسل من خلال نموذج ثنائي المراحل. الفكرة العامة تتمثل في إنشاء مقترحات مناطق غير مرتبطة بالفئة أولاً، ثم تمرير مناطق المقترحات المقطوعة إلى CLIP للاستفادة من قدرته على التصنيف الصفرية على مستوى الصورة. وعلى الرغم من فعالية هذا النهج، إلا أنه يتطلب استخدام مُشفِّرين للصورة، أحدهما لإنشاء المقترحات، والآخر لـ CLIP، مما يؤدي إلى تدفق معقد وتكاليف حسابية عالية. في هذا العمل، نسعى إلى حل بسيط وفعال يعتمد على مرحلة واحدة، والذي يمتد مباشرةً من قدرة التنبؤ الصفرية لـ CLIP من مستوى الصورة إلى مستوى البكسل. تبدأ دراستنا بتمديد مباشر كنقطة بداية، حيث يتم إنشاء أقنعة دلالية من خلال مقارنة التشابه بين التمثيلات النصية وتمثيلات البكسل المستخرجة من CLIP. ومع ذلك، فإن هذا النموذج قد يُعاني من تجاوز التخصيص (overfitting) الشديد للصفوف المرئية، ويُفشل في التعميم على الصفوف غير المرئية. لمعالجة هذه المشكلة، نقترح ثلاث تصميمات بسيطة ولكنها فعالة، ونُظهر أن هذه التصاميم يمكن أن تحافظ بشكل كبير على القدرة الصفرية الطبيعية لـ CLIP وتحسّن قدرة التعميم على مستوى البكسل. وعند دمج هذه التعديلات، نحصل على نظام فعّال للتصنيف الدلالي الصفرية على مستوى البكسل يُسمّى ZegCLIP. من خلال تجارب واسعة على ثلاث معايير عامة، يُظهر ZegCLIP أداءً متفوقًا، ويتفوق على أحدث الطرق بفارق كبير في كلا البيئتين "الاستنتاجية" (inductive) و"النقلية" (transductive) للتعلم الصفرية. بالإضافة إلى ذلك، مقارنةً بالطريقة الثنائية المراحل، يحقق ZegCLIP الأحادي المراحل تسريعًا بنسبة تصل إلى 5 أضعاف في مرحلة الاستدلال. نُطلق الكود على الرابط التالي: https://github.com/ZiqinZhou66/ZegCLIP.git.

ZegCLIP: نحو تكييف CLIP للتصنيف الدلالي الصفري الهدف | أحدث الأوراق البحثية | HyperAI