HyperAIHyperAI
منذ 11 أيام

التعلم الشرطي للـ Prompt في نماذج الرؤية واللغة

Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu
التعلم الشرطي للـ Prompt في نماذج الرؤية واللغة
الملخص

مع ارتفاع قوة النماذج المُدرَّبة مسبقًا في مجال الرؤية واللغة مثل CLIP، أصبح من الضروري استكشاف طرق لتكيف هذه النماذج مع مجموعات البيانات المستهدفة (downstream datasets). وقد تم مؤخرًا اقتراح طريقة تُسمى تحسين السياق (Context Optimization - CoOp)، والتي تُدخل مفهوم تعلم النص (prompt learning) – وهو اتجاه حديث في مجال معالجة اللغة الطبيعية (NLP) – إلى مجال الرؤية، بهدف تكييف النماذج المُدرَّبة مسبقًا في مجال الرؤية واللغة. بشكل خاص، تقوم CoOp بتحويل الكلمات السياقية في النص (prompt) إلى مجموعة من المتجهات القابلة للتعلم، وباستخدام عدد قليل جدًا من الصور المُعلَّمة، يمكنها تحقيق تحسينات كبيرة مقارنة بالنصوص اليدوية التي تم تحسينها بشكل مكثف. في دراستنا، حددنا مشكلة جوهرية في CoOp: فإن السياق المُتعلم لا يمكن تعميمه على فئات غير مرئية أوسع داخل نفس المجموعة، مما يشير إلى أن CoOp يعاني من التأقلم الزائد (overfitting) مع الفئات الأساسية التي تم رؤيتها أثناء التدريب. ولحل هذه المشكلة، نقترح طريقة تُسمى تحسين السياق الشرطي (Conditional Context Optimization - CoCoOp)، التي تمدد CoOp من خلال تعلُّم شبكة عصبية خفيفة الوزن لتوليد متجه مُشَرَّط بالمدخل (input-conditional token) لكل صورة. وعلى عكس النصوص الثابتة في CoOp، فإن نصوصنا الديناميكية تتكيف مع كل مثال على حدة، وبالتالي تكون أقل حساسية لتغير التوزيع الفئوي (class shift). أظهرت التجارب الواسعة أن CoCoOp تتفوق بكثير على CoOp في التعميم على الفئات غير المرئية، حتى تُظهر إمكانية نقل قوية خارج إطار مجموعة بيانات واحدة؛ كما تُظهر أداءً أقوى في التعميم بين المجالات (domain generalization). يمكن الاطلاع على الكود على الرابط التالي: https://github.com/KaiyangZhou/CoOp.

التعلم الشرطي للـ Prompt في نماذج الرؤية واللغة | أحدث الأوراق البحثية | HyperAI