تعلم مُعدّلٍ مُوحَّدٍ للنطاق في نماذج الرؤية واللغة

التعلم بالمنبه (Prompt Learning) يُعد أحد أكثر الطرق فعالية واتجاهًا حاليًا لتعديل النماذج الأساسية متعددة الوسائط البصرية-اللغوية، مثل CLIP، لتناسب مجموعات بيانات تطبيقية منخفضة العينة من خلال ضبط متجهات منبه قابلة للتعلم. ومع ذلك، وعلى الرغم من الأداء الممتاز الذي يحققه التعلم بالمنبه على البيانات ضمن النطاق (in-domain)، فإنه ما يزال يواجه التحدي الرئيسي في التعميم على فئات أو مجالات غير مرئية. تسعى بعض الطرق الحالية للتعلم بالمنبه إلى معالجة هذه المشكلة من خلال إنشاء منابه مختلفة بشكل تكيفي لكل رمز أو مجال، لكنها تتجاهل قدرة المنابه المُتعلمة على التعميم على مجالات غير مرئية. في هذه الورقة، نقترح نموذجًا جديدًا للتعلم بالمنبه يُولد مباشرةً منابهً مُستقلة عن المجال (domain invariant) يمكن تعميمها على مجالات غير مرئية، ونُطلق عليها اسم MetaPrompt. وبشكل خاص، نُقدّم شبكة ضبط منبه ذات وسائط مزدوجة لتوليد منابه للإدخال من كلا الوسائط البصرية والنصية. وباستخدام خسارة تباينية غير متزنة جديدة، تعمل تمثيلات النموذج المُدرّب مسبقًا متعدد الوسائط كإشراف لتعزيز قدرة التعميم للمنبه المُتعلّم. والأهم من ذلك، نُقدّم خوارزمية ضبط منبه تعتمد على التعلم التكراري (meta-learning) والتي تُقيّد صراحةً المنبه المخصص للمهمة (المُعدّل لمنطقة أو فئة معينة) بحيث يحقق أيضًا أداءً جيدًا في مجال أو فئة أخرى. أظهرت التجارب الواسعة على 11 مجموعة بيانات لعمليات التعميم من الأساس إلى الجديد (base-to-new generalization)، و4 مجموعات بيانات لعمليات التعميم على المجال (domain generalization)، أن طريقتنا تتفوّق بشكل متسق وملحوظ على الطرق الحالية.