تحسين التهيئة المرئية للنماذج التوليدية ذات التعلم الذاتي للتحويلات البصرية

تُعدّ طريقة التكييف المرئي (Visual Prompt Tuning - VPT) طريقة فعّالة لتكييف نماذج المحولات البصرية المُدرّبة مسبقًا (Vision Transformers - ViTs) على المهام المحددة. تعتمد هذه الطريقة على استخدام رموز قابلة للتعلّم إضافية، تُعرف بـ "الملامح" (prompts)، التي توجه نماذج ViTs المُجمّدة المُدرّبة مسبقًا. وعلى الرغم من أن VPT أظهرت فعاليتها مع المحولات البصرية المُدرّبة تحت إشراف، فإنها غالبًا ما تُظهر أداءً أقل عند استخدامها مع المحولات المُدرّبة ذاتيًا. ومن خلال الملاحظات التجريبية، نستنتج أن فعالية VPT تعتمد بشكل كبير على كتل ViT التي تتفاعل معها رموز الملامح. وبشكل خاص، تُظهر VPT تحسنًا في الأداء على مهام تصنيف الصور بالنسبة لـ MAE وMoCo v3 عندما تُدمج رموز الملامح في الكتل اللاحقة بدلًا من الكتلة الأولى. تشير هذه الملاحظات إلى وجود موقع مثالي داخل الكتل لدمج رموز الملامح. وللأسف، فإن تحديد الكتل المثلى لرموز الملامح داخل كل ViT ذاتي التدريب، لسيناريوهات مستقبلية متنوعة، عملية مكلفة. لمعالجة هذه المشكلة، نقترح طريقة بسيطة وفعّالة تتعلم "مفتاحًا" (gate) لكل كتلة من كتل ViT لتعديل تأثيرها على رموز الملامح. وباستخدام هذه الطريقة، تتأثر رموز الملامح بشكل انتقائي فقط بالكتل التي تحتاج إلى توجيه لتكيف المهمة. وتتفوّق طريقتنا على نماذج VPT المُختلفة في تصنيف الصور ضمن مجموعتي FGVC وVTAB، وكذلك في تصنيف الدلالة (semantic segmentation) على مجموعة ADE20K. يمكن الوصول إلى الكود عبر الرابط: https://github.com/ryongithub/GatedPromptTuning.