نظرة أدق على قابلية التفسير لتدريب اللغة والصورة التباينية

تمثّل التدريب المُقَارِن بين اللغة والصورة (CLIP) نموذجًا قويًا في مجال الرؤية واللغة، وقد أظهر فوائد كبيرة في مهام متعددة. ومع ذلك، تمكّنا من تحديد بعض المشكلات المتعلقة بشفافيته، والتي تُضعف مصداقيته وتُحد من قدرته على أداء المهام ذات الصلة. بشكل خاص، لاحظنا أن CLIP يميل إلى التركيز على المناطق الخلفية بدلاً من المناطق الأمامية، مع وجود تنشيطات مشوّشة في مواقع غير ذات صلة في نتائج التصور. تتعارض هذه الظواهر مع الطرق التقليدية لشفافية النماذج القائمة على خريطة انتباه الفئة (CAM)، حيث يمكن للنموذج الأصلي توضيح مناطق أمامية محلية باستخدام مراقبة عالمية دون الحاجة إلى التماثل. لمعالجة هذه المشكلات، قمنا بتحليل دقيق لهيكله وميزاته. وباستناد إلى تحليلات شاملة، وجدنا أن الانتباه الذاتي الأصلي يرتبط بمناطق ذات معاني غير متسقة، مما يؤدي إلى نتائج تصور عكسية. علاوة على ذلك، تعود التنشيطات المشوّشة إلى وجود ميزات زائدة بين الفئات. استنادًا إلى هذه الرؤى، نقترح طريقة تُسمّى "جراحة CLIP" (CLIP Surgery) لتحسين شفافية CAM بشكل موثوق، وهي تسمح بإجراء تعديلات شبيهة بالجراحة على بنية الاستدلال والميزات، دون الحاجة إلى إعادة التدريب الدقيق كما في الطرق التقليدية لـ CAM. تُحسّن هذه الطريقة بشكل كبير من شفافية CLIP، وتتفوّق على الطرق الحالية بفارق كبير. بالإضافة إلى ذلك، تُمكّن من التصور متعدد الوسائط وتوسيع قدرة CLIP الأصلي في المهام ذات المفردات المفتوحة دون الحاجة إلى تطابق إضافي. يُمكن الوصول إلى الكود عبر الرابط: https://github.com/xmed-lab/CLIP_Surgery.