HyperAIHyperAI
منذ 2 أشهر

تعلم التحفيز لنموذج الرؤية واللغة

Zhou, Kaiyang ; Yang, Jingkang ; Loy, Chen Change ; Liu, Ziwei
تعلم التحفيز لنموذج الرؤية واللغة
الملخص

أظهرت النماذج الكبيرة المدربة مسبقًا للرؤية واللغة مثل CLIP إمكانات كبيرة في تعلم التمثيلات القابلة للنقل عبر مجموعة واسعة من المهام اللاحقة. على عكس التعلم التقليدي للتمثيل الذي يعتمد بشكل أساسي على العلامات المنفصلة، فإن تدريب الرؤية واللغة يُحاذا بين الصور والنصوص في فضاء خصائص مشترك، مما يسمح بالنقل الفوري إلى مهمة لاحقة من خلال الإرشاد، أي يتم تركيب أوزان التصنيف من اللغة الطبيعية التي تصف الفئات ذات الاهتمام. في هذا العمل، نوضح أن تحديًا رئيسيًا لتطبيق هذه النماذج في الواقع هو هندسة الإرشاد، والتي تتطلب الخبرة في المجال وتستغرق وقتًا طويلًا جدًا -- يتوجب قضاء وقت كبير في ضبط الكلمات حيث يمكن أن يكون للتغيير البسيط في الصياغة تأثير كبير على الأداء. مستوحىً من التقدم الحديث في بحوث هندسة الإرشاد في معالجة اللغة الطبيعية (NLP)، نقترح تحسين السياق (Context Optimization) أو (CoOp)، وهو نهج بسيط مخصص لتكييف نماذج الرؤية واللغة المشابهة لـ CLIP للمهام اللاحقة في التعرف على الصور. بوضوح، يقوم CoOp بتوفير سياق الكلمات للإرشاد باستخدام متجهات قابلة للتعلم بينما يتم الحفاظ على جميع المعلمات المدربة مسبقًا ثابتة. لمعالجة مختلف مهام التعرف على الصور، نوفر تنفيذيْن لـ CoOp: السياق الموحد والسياق الخاص بالفئة. من خلال التجارب الواسعة على 11 مجموعة بيانات، نثبت أن CoOp يحتاج إلى ما يصل إلى واحد أو اثنين فقط من الإرشادات لتحقيق أفضل النتائج مقارنة بالإرشادات المصممة يدويًا بمقدار هامشي، ويمكنه تحقيق تحسينات كبيرة عند استخدام المزيد من الإرشادات، مثل الحصول على زيادة متوسطها حوالي 15% (مع أعلى زيادة تصل إلى أكثر من 45%) عند استخدام 16 إرشادًا. رغم كونه نهجًا تعليميًا، إلا أن CoOp يحقق أداءً رائعًا في تعميم المجال مقارنة بنموذج الفاصلة الزمنية باستخدام الإرشادات المصممة يدويًا.