التحفيز الجيد يستحق ملايين المعلمات: تعلم مبني على التحفيز منخفض الموارد للنماذج البصرية-اللغوية

يمكن للنماذج الكبيرة المُدرَّبة مسبقًا في مجال الرؤية واللغة (VL) تعلُّم مهمة جديدة باستخدام عدد قليل جدًا من الأمثلة، والتفوُّق في الأداء على مهام جديدة دون الحاجة إلى التدريب الدقيق (fine-tuning). ومع ذلك، فإن هذه النماذج تُعدّ صعبة التنفيذ في التطبيقات الواقعية بسبب حجمها الهائل وغير العملي وسرعة استنتاجها البطيئة. ولحل هذه المشكلة، ندرس تعلُّم المهام الخاصة بـ VL القائمة على المحفِّزات (prompts) في بيئة ذات موارد محدودة، باستخدام طريقة مقترحة تُسمَّى FewVLM، وهي أصغر نسبيًا مقارنةً بالنماذج القائمة على التعلم بعينات قليلة الحديثة. بالنسبة لـ FewVLM، نُدرِّب نموذجًا مُحَوِّلًا تسلسليًا (sequence-to-sequence transformer) مسبقًا باستخدام نموذج التوليد المُسبق للغة (PrefixLM) ونموذج التوليد المُقنّع للغة (MaskedLM). علاوةً على ذلك، نحلِّل تأثير المحفِّزات المتنوعة على المهام ذات العينات القليلة. أظهرت النتائج التجريبية على مهمة VQA أن FewVLM التي تعتمد على التعلُّم القائم على المحفِّزات تتفوَّق على النموذج المُجمَّد (Frozen) الذي يُعدّ 31 مرة أكبر من FewVLM بنسبة 18.2 نقطة مئوية، وتحقق نتائج مماثلة لنموذج أكبر بـ 246 مرة، وهو نموذج PICa. في تحليلنا، لاحظنا أن: (1) تؤثر المحفِّزات بشكل كبير على الأداء في السياق الصفر-نقطة (zero-shot)، ولكنها تؤثر بشكل طفيف على الأداء في السياق القائم على العينات القليلة (few-shot)، (2) تتعلَّم النماذج التي تستخدم محفِّزات مشوَّشة (noisy prompts) بنفس السرعة التي تتعلَّم بها النماذج التي تستخدم محفِّزات مُصمَّمة يدويًا، عند توفر بيانات تدريب أكبر، و (3) يُسهم نموذج MaskedLM في تحسين أداء مهام VQA، في حين يعزِّز نموذج PrefixLM أداء مهام التسمية (captioning). يمكن الوصول إلى الشيفرة المصدرية الخاصة بنا بشكل عام عبر الرابط التالي: \url{https://github.com/woojeongjin/FewVLM}