توليد البرومبت الناعم للعامة المجالية

أظهرت النماذج الكبيرة المُدرَّبة مسبقًا للرؤية واللغة (VLMs) قدرة مبهرة على المهام المُستهدفة بدون تدريب مسبق (zero-shot) باستخدام أوامر مُصممة يدويًا. ولتحسين ملاءمة هذه النماذج للمهام المُستهدفة، تم اقتراح استخدام "المنبه الناعم" (soft prompt) كبديل للمنبهات المُصممة يدويًا، والتي تخضع للتعديل الدقيق بناءً على بيانات مجال معين. وتعتمد الطرق السابقة لتعلم المنبهات على تعلُّم منبه ثابت أو منبه متبقي (residuled prompt) من عينات التدريب. ومع ذلك، فإن المنبهات المُتعلمة تفتقر إلى التنوّع وتتجاهل المعلومات المتعلقة بالمجالات غير المرئية. في هذه الورقة، نعيد صياغة إطار تعلم المنبهات من منظور توليدي، ونُقدّم طريقة بسيطة وفعّالة لمهام التعميم عبر المجالات (Domain Generalization - DG)، تُسمّى توليد المنبه الناعم (Soft Prompt Generation - SPG). وتشمل SPG مرحلتين تدريسيتين ومرحلة استنتاج. خلال المرحلة التدريبية، نُدخل منبهًا ناعمًا لكل مجال، بهدف دمج معرفة المجال من النموذج التوليدي. وفي مرحلة الاستنتاج، تُستخدم وحدة التوليد في النموذج التوليدي لتوليد منبهات ناعمة مخصصة لكل حالة في المجال الهدف غير المرئي. أظهرت التجارب الواسعة على خمسة معايير لمهام التعميم عبر المجالات الثلاثة (DG) أداءً يُعدّ من أفضل الأداء في الحالة الراهنة. يُمكن الوصول إلى الكود عبر الرابط: https://github.com/renytek13/Soft-Prompt-Generation-with-CGAN.