منذ 6 أشهر

الملخص

مع ارتفاع قوة النماذج المُدرَّبة مسبقًا في مجال الرؤية واللغة مثل CLIP، أصبح من الضروري استكشاف طرق لتكيف هذه النماذج مع مجموعات البيانات المستهدفة (downstream datasets). وقد تم مؤخرًا اقتراح طريقة تُسمى تحسين السياق (Context Optimization - CoOp)، والتي تُدخل مفهوم تعلم النص (prompt learning) – وهو اتجاه حديث في مجال معالجة اللغة الطبيعية (NLP) – إلى مجال الرؤية، بهدف تكييف النماذج المُدرَّبة مسبقًا في مجال الرؤية واللغة. بشكل خاص، تقوم CoOp بتحويل الكلمات السياقية في النص (prompt) إلى مجموعة من المتجهات القابلة للتعلم، وباستخدام عدد قليل جدًا من الصور المُعلَّمة، يمكنها تحقيق تحسينات كبيرة مقارنة بالنصوص اليدوية التي تم تحسينها بشكل مكثف. في دراستنا، حددنا مشكلة جوهرية في CoOp: فإن السياق المُتعلم لا يمكن تعميمه على فئات غير مرئية أوسع داخل نفس المجموعة، مما يشير إلى أن CoOp يعاني من التأقلم الزائد (overfitting) مع الفئات الأساسية التي تم رؤيتها أثناء التدريب. ولحل هذه المشكلة، نقترح طريقة تُسمى تحسين السياق الشرطي (Conditional Context Optimization - CoCoOp)، التي تمدد CoOp من خلال تعلُّم شبكة عصبية خفيفة الوزن لتوليد متجه مُشَرَّط بالمدخل (input-conditional token) لكل صورة. وعلى عكس النصوص الثابتة في CoOp، فإن نصوصنا الديناميكية تتكيف مع كل مثال على حدة، وبالتالي تكون أقل حساسية لتغير التوزيع الفئوي (class shift). أظهرت التجارب الواسعة أن CoCoOp تتفوق بكثير على CoOp في التعميم على الفئات غير المرئية، حتى تُظهر إمكانية نقل قوية خارج إطار مجموعة بيانات واحدة؛ كما تُظهر أداءً أقوى في التعميم بين المجالات (domain generalization). يمكن الاطلاع على الكود على الرابط التالي: https://github.com/KaiyangZhou/CoOp.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار