تعلم النموذج المُوجه بالمنطقة لتحسين تكييف CLIP مع المجالات غير المرئية بكفاءة

العامة التحويلية (DG) هي مشكلة صعبة في التعلم الناقل، وتهدف إلى تعلُّم نموذج قابل للتطبيق بشكل عام على مجالات غير مرئية. تتمتع النماذج الأساسية الحديثة (FMs) بالمتانة تجاه العديد من التحولات في التوزيع، وبالتالي ينبغي أن تُحسِّن بشكل كبير أداء العامة التحويلية. في هذه الدراسة، نستعرض طرقًا عامة لاستخدام CLIP، وهو نموذج أساسي بصري-لغوي، في مشكلات العامة التحويلية في تصنيف الصور. في حين أن التعلم المعياري (ERM) يُحسِّن بشكل كبير الدقة مع استخدام هياكل أكبر وبيانات تدريب أكبر باستخدام معايير العامة التحويلية القياسية، فإن عملية التخصيص الدقيق للنماذج الأساسية غير عملية في العديد من الحالات الواقعية. نقترح طريقة جديدة تُسمى تعلُّم المُحفِّزات المجالية (DPL) كوسيلة للاستدلال المجالي من خلال توليد مُحفِّزات شرطية. حقق DPL تحسينًا كبيرًا في الدقة من خلال تدريب مُولِّد مُحفِّزات خفيف الوزن (شبكة عصبية متعددة الطبقات بثلاث طبقات)، حيث تكون أبعاد معلماته مماثلة لمقاس مُشغِّل التصنيف المستخدم في الأدبيات السابقة للعامة التحويلية. عند دمج DPL مع CLIP، تُظهر النتائج نتائج مذهلة، حيث رفعت الدقة من 73.7% إلى 79.3% لـ CLIP بدون تدريب (zero-shot) على عدة مجموعات بيانات قياسية، مثل PACS وVLCS وOfficeHome وTerraIncognita. نأمل أن تُسهم بساطة ونجاح نهجنا في تعزيز اعتماد وتحليل النماذج الأساسية في مجال العامة التحويلية. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/shogi880/DPLCLIP.