إعادة النظر في قوة النص التوجيهي للضبط البصري

يُعدّ التحكّم البصري بالمنبه (Visual Prompt Tuning (VPT)) حلاً واعدًا يُدمج رموز منبه قابلة للتعلم لتعديل النماذج المُدرّبة مسبقًا وفقًا للمهام اللاحقة. ومع ذلك، غالبًا ما تواجه VPT ومشتقاتها تحديات مثل تهيئة المنبه، وطول المنبه، وأداء غير مرضٍ في التدريب ذاتي التسمية، مما يعيق التكيّف السياقي الناجح. تبدأ هذه الدراسة باستكشاف تطور العلاقة بين المنبهات ورموز القطع خلال التدريب الفعّال. مستوحاة من الملاحظة التي تشير إلى أن رموز المنبه تميل إلى مشاركة معلومات متبادلة عالية مع رموز القطع، نقترح تهيئة المنبهات باستخدام نماذج أولية للرموز اللاحقة. تُعدّ هذه التهيئة الاستراتيجية بديلًا فعّالًا للطرق السابقة، وتحسّن بشكل كبير الأداء أثناء التكييف الدقيق. ولتحقيق تحسين إضافي، نُحسّن بناء الرموز عبر مسار مبسط يحافظ على أداء ممتاز مع زيادة شبه غير ملحوظة في التكاليف الحسابية مقارنةً بـ VPT. تُظهر التجارب الشاملة أن النهج المقترح يتفوّق على الطرق الحالية بفارق كبير. على سبيل المثال، يتجاوز التكييف الكامل في 19 من أصل 24 مهمة، باستخدام أقل من 0.4% من المعلمات القابلة للتعلم على معايير FGVC وVTAB-1K. وبشكل لافت، يُسهم نهجنا بشكل كبير في تحسين التكيّف للتدريب ذاتي التسمية، حيث يحقق مكاسب ملحوظة في الأداء، تتراوح بين 10% و30% على الأقل. علاوةً على ذلك، تُظهر النتائج التجريبية أن SPT المقترح يتمتع بمتانة عالية تجاه أطوال المنبهات، ويُظهر قدرة ممتازة على التوسع مع حجم النموذج وحجم بيانات التدريب. وفي النهاية، نقدّم استكشافًا عميقًا لتحديد كمية البيانات المستهدفة التي تسهم في تكييف النماذج المُدرّبة مسبقًا لمهام لاحقة. يمكن الوصول إلى الكود عبر الرابط: https://github.com/WangYZ1608/Self-Prompt-Tuning.