HyperAIHyperAI
منذ 17 أيام

الضبط الدقيق المقاوم المستندة إلى السياق

Xiaofeng Mao, Yuefeng Chen, Xiaojun Jia, Rong Zhang, Hui Xue, Zhao Li
الضبط الدقيق المقاوم المستندة إلى السياق
الملخص

تمتلك نماذج التدريب المسبق للغة والصورة المُقارنة (CLIP) القدرة على التصنيف بدون عينات (zero-shot) لتحديد ما إذا كانت صورة ما تنتمي إلى فئة معينة "[CLASS]" من خلال قياس التشابه بين الصورة والجملة المُقدمة "[a [CONTEXT] of [CLASS]]". وبفضل مجموعة واسعة من المؤشرات النصية في "[CONTEXT]"، يمتلك نموذج CLIP وعيًا بالسياقات المختلفة، مثل الخلفية، الأسلوب، وجهة النظر، ويُظهر مقاومة غير مسبوقة أمام تغيرات التوزيع الواسعة النطاق. ومع ذلك، أظهرت دراسات حديثة أن التدريب المخصص الإضافي (fine-tuning) لنموذج CLIP يُحسّن الدقة ولكنه يُضعف المقاومة في المهام اللاحقة. نقوم بدراسة تجريبية تُظهر أن التدريب المخصص يُفسد القدرة على التمييز السياقي للسمات المُدرّبة مسبقًا في CLIP. لحل هذه المشكلة، نقترح طريقة تسمى التدريب المخصص المُراعي للسياق (CAR-FT). تُنظم CAR-FT النموذج أثناء التدريب المخصص لضمان اكتسابه لمعلومات السياق. وبشكل محدد، نستخدم أوزان الجمل الصفرية (zero-shot prompt weights) لاستخلاص توزيع السياق المُحتوى في الصورة. وباستخدام تقليل انحراف كولبكي-ليبلر (Kullback-Leibler Divergence - KLD) بين توزيعات السياق الناتجة عن نموذج CLIP الأصلي والنموذج المُدرّب مسبقًا، تضمن CAR-FT الحفاظ على القدرة على التمييز السياقي في المهام اللاحقة، مما يؤدي إلى تحسين دقة المهام ضمن التوزيع (In-Distribution - ID) وخارج التوزيع (Out-of-Distribution - OOD) معًا. أظهرت النتائج التجريبية أن CAR-FT تحقق مقاومة متفوقة على خمسة مجموعات اختبار خارج التوزيع (OOD) من ImageNet، وفي الوقت نفسه تحقق مكاسب في الدقة على تسع مهام لاحقة. علاوةً على ذلك، تفوقت CAR-FT على الطرق السابقة في التعميم الحدودي (Domain Generalization - DG)، وحققت دقة متوسطة بلغت 78.5% على معيار DomainBed، مما يُشكّل حالة جديدة متطورة في هذا المجال.