تعلم الإشارة من خلال الت régularisation التلقائي

أظهرت النماذج البصرية-اللغوية المُدرّبة مسبقًا نجاحًا ملحوظًا في مجموعة متنوعة من مهام الرؤية الحاسوبية بفضل قدرتها على التعميم الصفرية. في الآونة الأخيرة، تم استكشاف أساليب التعلم بالـprompt لتمكين التكيّف بكفاءة وفعالية مع مهام متعددة في المُستوى السفلي. ومع ذلك، تعاني معظم الأساليب الحالية لتعلم الـprompt من تجاوز التكيّف المُفرط (task overfitting)، نظرًا لفقدان المعرفة العامة للنماذج المُدرّبة مسبقًا على النماذج البصرية-اللغوية أثناء تدريب الـprompt على مجموعة بيانات صغيرة من مهمة مستهدفة محددة. لمعالجة هذه المشكلة، نقترح طريقة تُدعى التس regularization الـmeta للـprompt (ProMetaR) لتحسين قدرة التعميم لتعلم الـprompt في النماذج البصرية-اللغوية. بشكل محدد، تقوم ProMetaR بتعلم ميتا لكل من المُنظم (regularizer) والـprompt الناعم (soft prompts) لاستغلال المعرفة المخصصة للمهمة من المهام في المُستوى السفلي، والمعرفة العامة غير المرتبطة بالمهام من النماذج البصرية-اللغوية. علاوة على ذلك، تُعدّل ProMetaR المهمة الأصلية لتكوين مهام افتراضية متعددة، مما يخفف من مشكلة التكيّف الميتا المفرط (meta-overfitting). بالإضافة إلى ذلك، نقدّم تحليلًا يُفسّر كيف تُحسّن ProMetaR قدرة التعميم في تكييف الـprompt من منظور تمايز المُشتقات (gradient alignment). تُظهر التجارب الواسعة أن ProMetaR تُحسّن قدرة التعميم للأساليب التقليدية لتعلم الـprompt في سياقات التعميم الأساسي إلى الأساسي (base-to-base)، والأساسي إلى الجديد (base-to-new)، وكذلك في سياقات تعميم المجال (domain generalization). يُمكن الوصول إلى الشيفرة البرمجية الخاصة بـProMetaR عبر الرابط التالي: https://github.com/mlvlab/ProMetaR.