HyperAIHyperAI
منذ 17 أيام

التحفيز البصري-اللغوي القائم على التعلم مع مشغل إعادة التمثيل

Thi Minh Anh Pham, An Duc Nguyen, Cephas Svosve, Vasileios Argyriou, Georgios Tzimiropoulos
التحفيز البصري-اللغوي القائم على التعلم مع مشغل إعادة التمثيل
الملخص

أظهرت النماذج الكبيرة المُدرَّبة مسبقًا في مجال الرؤية واللغة، مثل CLIP، إمكانات كبيرة في التحويل الصفرية (zero-shot transferability) إلى المهام التطبيقية. ومع ذلك، لتحقيق أفضل أداء، يتطلب الأمر اختيارًا يدويًا للـ prompts لتحسين التوافق بين توزيع الصور في المهمة التطبيقية ووصف النصوص للتصنيفات. ويُعد هذا التصميم اليدوي للـ prompts التحدي الرئيسي في تطبيق هذه النماذج عمليًا، نظرًا لاحتياجاته إلى خبرة متخصصة وكونه مرهقًا للغاية من حيث الوقت. ولتجنب هندسة الـ prompts المعقدة، قدمت الدراسات الحديثة مفهوم تعلّم الـ prompts في مجال الرؤية باستخدام رموز نصية قابلة للتعلم، مثل ما تم في العمل Context Optimization (CoOp). وعلى الرغم من أن CoOp تمكّن من تحقيق تحسينات كبيرة مقارنة بالـ prompts اليدوية، إلا أن السياق المُتعلم لديه قدرة أضعف على التعميم على فئات غير مرئية أوسع داخل نفس المجموعة البيانات. في هذا العمل، نقدّم طريقة بسيطة وفعّالة تُسمى تعلّم الـ prompts باستخدام مشغل إعادة التمثيل (Prompt Learning with Reparameterization Encoder - PRE)، والتي تُعزز قدرة الـ prompt القابل للتعلم على التعميم على الفئات غير المرئية مع الحفاظ على قدرتها على تعلّم الفئات الأساسية. بدلًا من تحسين الـ prompts مباشرة، تستخدم PRE مشغلًا للـ prompt لإعادة تمثيل متجهات الـ prompts المدخلة، مما يعزز استكشاف المعرفة المخصصة للمهمة من عينات قليلة (few-shot). أظهرت التجارب والدراسات التحليلية الموسعة على 8 معايير أن منهجنا يُعد طريقة فعّالة لتعلّم الـ prompts. وبشكل خاص، حقق PRE تحسنًا ملحوظًا بنسبة 5.60% في الدقة المتوسطة على الفئات الجديدة، و3% في متوسط الهارمونيك (Harmonic mean) مقارنة بـ CoOp في بيئة 16-shot، وكل ذلك ضمن وقت تدريب جيد.