PromptKD: تقطيع نصي غير مراقب لنماذج الرؤية واللغة

أصبح التعلم بالمحفزات (Prompt Learning) تقنيةً قيّمةً في تحسين نماذج الرؤية واللغة (VLMs) مثل CLIP لمهام ما بعد التدريب في مجالات محددة. تركز الدراسات الحالية بشكل رئيسي على تصميم أشكال متنوعة للمحفزات، مع إهمال الإمكانات الكامنة للمحفزات كوسيلة فعّالة لنقل المعرفة من نماذج معلّمة كبيرة (النماذج المعلّمة) إلى نماذج أخف وزنًا. في هذه الورقة، نقدّم إطارًا لنقل المعرفة من خلال محفزات مجالية غير مُعلَّمة، يهدف إلى نقل معرفة نموذج معلّم كبير إلى نموذج هدف خفيف الوزن من خلال محاكاة موجهة بالمحفزات باستخدام صور غير مُعلَّمة من المجال. بشكل مفصّل، يتكون إطارنا من مرحلتين متميزتين. في المرحلة الأولى، نُدرّب مسبقًا نموذج CLIP المعلّم الكبير باستخدام تسميات مجالية (نماذج قليلة). وبعد التدريب المسبق، نستفيد من الخصائص الفريدة لفصل الوسائط في CLIP من خلال حساب وتخزين ميزات النص كمتجهات فئات مرة واحدة فقط باستخدام مشغل النص المعلّم. في المرحلة اللاحقة، تُشارك هذه المتجهات المخزنة بين مشغلي الصور في النموذج المعلّم والنموذج الطالب لحساب القيم المُتنبّأة (logits). علاوةً على ذلك، نُعدّل القيم المُتنبّأة لكلا النموذجين من خلال تباين كولب-ليبلر (KL divergence)، مما يشجّع مشغل الصور في النموذج الطالب على إنتاج توزيعات احتمالية مشابهة للنموذج المعلّم من خلال المحفزات القابلة للتعلّم. يُلغِي عملية نقل المعرفة المُقترحَة الاعتماد على بيانات مُعلَّمة، مما يمكّن الخوارزمية من الاستفادة من كمّ هائل من الصور غير المُعلَّمة داخل المجال. في النهاية، تُستخدم مشغّلات الصور الطالب المُدرّبة جيدًا وميزات النص المخزنة مسبقًا (المتجهات الفئوية) في التنبؤ. إلى حدّ معرفتنا، نحن أول من (1) يُنفّذ نقل معرفة موجه بالمحفزات في مجال معين دون تسميات على نموذج CLIP، و(2) يُنشئ آلية عملية لتخزين مسبق لميزات النص كمتجهات فئوية مشتركة بين النموذج المعلّم والطالب. تُظهر التجارب الواسعة على 11 مجموعة بيانات فعالية طريقة العمل المُقدّمة.