HyperAIHyperAI
منذ 11 أيام

تحسين التهيئة المرئية للنماذج التوليدية ذات التعلم الذاتي للتحويلات البصرية

Seungryong Yoo, Eunji Kim, Dahuin Jung, Jungbeom Lee, Sungroh Yoon
تحسين التهيئة المرئية للنماذج التوليدية ذات التعلم الذاتي للتحويلات البصرية
الملخص

تُعدّ طريقة التكييف المرئي (Visual Prompt Tuning - VPT) طريقة فعّالة لتكييف نماذج المحولات البصرية المُدرّبة مسبقًا (Vision Transformers - ViTs) على المهام المحددة. تعتمد هذه الطريقة على استخدام رموز قابلة للتعلّم إضافية، تُعرف بـ "الملامح" (prompts)، التي توجه نماذج ViTs المُجمّدة المُدرّبة مسبقًا. وعلى الرغم من أن VPT أظهرت فعاليتها مع المحولات البصرية المُدرّبة تحت إشراف، فإنها غالبًا ما تُظهر أداءً أقل عند استخدامها مع المحولات المُدرّبة ذاتيًا. ومن خلال الملاحظات التجريبية، نستنتج أن فعالية VPT تعتمد بشكل كبير على كتل ViT التي تتفاعل معها رموز الملامح. وبشكل خاص، تُظهر VPT تحسنًا في الأداء على مهام تصنيف الصور بالنسبة لـ MAE وMoCo v3 عندما تُدمج رموز الملامح في الكتل اللاحقة بدلًا من الكتلة الأولى. تشير هذه الملاحظات إلى وجود موقع مثالي داخل الكتل لدمج رموز الملامح. وللأسف، فإن تحديد الكتل المثلى لرموز الملامح داخل كل ViT ذاتي التدريب، لسيناريوهات مستقبلية متنوعة، عملية مكلفة. لمعالجة هذه المشكلة، نقترح طريقة بسيطة وفعّالة تتعلم "مفتاحًا" (gate) لكل كتلة من كتل ViT لتعديل تأثيرها على رموز الملامح. وباستخدام هذه الطريقة، تتأثر رموز الملامح بشكل انتقائي فقط بالكتل التي تحتاج إلى توجيه لتكيف المهمة. وتتفوّق طريقتنا على نماذج VPT المُختلفة في تصنيف الصور ضمن مجموعتي FGVC وVTAB، وكذلك في تصنيف الدلالة (semantic segmentation) على مجموعة ADE20K. يمكن الوصول إلى الكود عبر الرابط: https://github.com/ryongithub/GatedPromptTuning.

تحسين التهيئة المرئية للنماذج التوليدية ذات التعلم الذاتي للتحويلات البصرية | أحدث الأوراق البحثية | HyperAI