تخصيص الإشارة للنماذج المُدرَّبة مسبقًا متعددة الوسائط الإنشائية

أصبح التكييف بالـ prompt نموذجًا جديدًا لتعديل النماذج، وقد أظهر نجاحًا في التدريب المسبق للغة الطبيعية وحتى في التدريب المسبق البصري. في هذا العمل، نستكشف نقل تقنية التكييف بالـ prompt إلى التدريب المسبق متعدد الوسائط، مع التركيز على النماذج المسبقة التدريب متعددة الوسائط القائمة على التوليد، بدلًا من النماذج القائمة على المقارنة. بشكل خاص، نُطبّق التكييف بالـ prompt على نموذج موحد مُدرّب على التسلسل إلى التسلسل، قادر على التكيّف مع مهام الفهم والتوظيف. تُظهر النتائج التجريبية أن التكييف الخفيف بالـ prompt يمكنه تحقيق أداءً مماثلًا للتدريب المخصص (fine-tuning)، ويفوق طرق التكييف الخفيفة الأخرى. علاوةً على ذلك، تُظهر النماذج المُعدّلة باستخدام الـ prompt مرونة أفضل ضد الهجمات العدائية مقارنةً بالنماذج المُدرّبة بالكامل. كما نستنتج أن العوامل التجريبية، بما في ذلك طول الـ prompt وعمقه، وتقنية إعادة التمثيل (reparameterization)، تؤثر بشكل كبير على أداء النموذج، وبالتالي نقدّم توصيات عملية لضبط إعدادات التكييف بالـ prompt. وعلى الرغم من المزايا الملاحظة، لا نزال نكتشف بعض القيود في تقنية التكييف بالـ prompt، ونُشير إلى الاتجاهات المستقبلية ذات الصلة للبحث. يمكن الوصول إلى الكود من خلال الرابط: \url{https://github.com/OFA-Sys/OFA}